基于一种视觉注意力机制的图像描述方法

Wei XUE,Hui-yi LIU

Information Technology(2020)

引用 0|浏览3
暂无评分
摘要
为了提高由图像生成文字描述的准确率,文中提出了一种基于传统的编码解码框架,分别在编码端和解码端融入视觉注意力机制的方法,即在编码端加入空间注意力机制和图像通道级注意力机制相结合的方法.在解码端运用自适应视觉注意力机制的方法,即在传统的解码端上加入一个额外的“视觉哨兵”模块.文中提出的方法在生成文字描述的过程中自动决定是依赖图像特征还是依赖语义特征,并传递给相应的注意力机制.实验证明,相比较单一的视觉注意力机制,文中方法取得了较高的图像描述语句的正确率,具有更好的图像描述性能.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要