首页> 中文期刊> 《信号处理》 >基于堆叠交叉注意力的图像文本跨模态匹配方法

基于堆叠交叉注意力的图像文本跨模态匹配方法

         

摘要

图像文本跨模态匹配是计算机视觉与自然语言处理交叉领域的一项重要任务,然而传统的图像文本跨模态匹配方法要么只考虑到全局图像与全局文本匹配,要么只考虑到局部图像与局部文本匹配,无法全面有效的考虑局部和全局信息,导致提取出来的特征信息不完善。或者只是简单的对全局图像与全局文本特征进行提取,局部细节信息无法凸显,导致全局特征无法充分表达其全局语义信息。针对该问题,本文提出一种基于堆叠交叉注意力的图像文本跨模态匹配方法。该方法在考虑局部图像与局部文本匹配的同时,将堆叠交叉注意力引进全局图像与全局文本匹配,通过注意力来进一步挖掘全局特征信息,让全局图像与全局文本特征得到优化,从而提升图像文本跨模态检索的效果。在Flickr30K和MS-COCO两个公共数据集上进行了实验验证,模型的总体性能R@sum(Recall@sum)较baseline(SCAN)分别提高了3.9%与3.7%。该模型与SCAN模型相比,R@sum表现较好。由此表明本文提出方法在图像文本跨模态检索任务上的有效性,并且与现有方法相比具有一定的优越性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号