基于堆叠交叉注意力的图像文本跨模态匹配方法

Journal of Signal Processing(2022)

引用 0|浏览8
暂无评分
摘要
图像文本跨模态匹配是计算机视觉与自然语言处理交叉领域的一项重要任务,然而传统的图像文本跨模态匹配方法要么只考虑到全局图像与全局文本匹配,要么只考虑到局部图像与局部文本匹配,无法全面有效的考虑局部和全局信息,导致提取出来的特征信息不完善.或者只是简单的对全局图像与全局文本特征进行提取,局部细节信息无法凸显,导致全局特征无法充分表达其全局语义信息.针对该问题,本文提出一种基于堆叠交叉注意力的图像文本跨模态匹配方法.该方法在考虑局部图像与局部文本匹配的同时,将堆叠交叉注意力引进全局图像与全局文本匹配,通过注意力来进一步挖掘全局特征信息,让全局图像与全局文本特征得到优化,从而提升图像文本跨模态检索的效果.在Flickr30K和MS-COCO两个公共数据集上进行了实验验证,模型的总体性能R@sum(Recall@sum)较baseline (SCAN)分别提高了3.9%与3.7%.该模型与SCAN模型相比,R@sum表现较好.由此表明本文提出方法在图像文本跨模态检索任务上的有效性,并且与现有方法相比具有一定的优越性.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要