面向视觉对话的自适应视觉记忆网络

Journal of University of Electronic Science and Technology of China(2021)

Cited 0|Views7
No score
Abstract
视觉对话中最具挑战的难点是视觉共指消解问题,该文针对此问题设计了一种自适应视觉记忆网络(AVMN).该方法直接将视觉信息存储于外部记忆库,整合了文本和视觉定位过程,进而有效缓解了在这两个过程中所产生的误差.此外在很多场景下,仅依据图片便可对提出的问题进行回答,历史信息反而会导致不必要的误差.因此,模型自适应地读取外部视觉记忆,并融合了残差视觉信息.实验证明,相比于其他方法,该模型在各项指标上均取得了更优的效果.
More
Translated text
Key words
visual dialog,memory,adaptive
AI Read Science
Must-Reading Tree
Example
Generate MRT to find the research sequence of this paper
Chat Paper
Summary is being generated by the instructions you defined