首页> 外文期刊>Neurocomputing >Fusion layer attention for image-text matching
【24h】

Fusion layer attention for image-text matching

机译:用于图像文本匹配的融合层注意

获取原文
获取原文并翻译 | 示例

摘要

Image-text matching aims to find the relationship between image and text data and to establish a connection between them. The main challenge of image-text matching is the fact that images and texts have different data distributions and feature representations. Current methods for image-text matching fall into two basic types: methods that map image and text data into a common space and then use distance measurements and methods that treat image-text matching as a classification problem. In both cases, the two data modes used are image and text data. In our method, we create a fusion layer to extract intermediate modes, thus improving the image-text processing results. We also propose a concise way to update the loss function that makes it easier for neural networks to handle difficult problems. The proposed method was verified on the Flickr30K and MS-COCO datasets and achieved superior matching results compared to existing methods.(c) 2021 Elsevier B.V. All rights reserved.
机译:图像文本匹配旨在查找图像和文本数据之间的关系,并在它们之间建立连接。 图像文本匹配的主要挑战是图像和文本具有不同的数据分布和特征表示。 图像文本匹配的当前方法属于两个基本类型:将图像和文本数据映射到公共空间中的方法,然后使用距离测量和方法将图像文本与分类问题进行匹配。 在这两种情况下,所用的两种数据模式是图像和文本数据。 在我们的方法中,我们创建一个融合层以提取中间模式,从而提高图像文本处理结果。 我们还提出了一种更新损失功能的简明方法,使神经网络更容易处理困难问题。 在FlickR30K和MS-Coco数据集上验证了该方法,与现有方法相比,实现了优异的匹配结果。(c)2021 Elsevier B.v.保留所有权利。

著录项

  • 来源
    《Neurocomputing》 |2021年第28期|249-259|共11页
  • 作者单位

    XinJiang Univ Software Coll Urumqi 830046 Peoples R China;

    Xinjiang Univ Informat Sci & Engn Coll Urumqi 830046 Peoples R China;

    Tsinghua Univ Beijing 100084 Peoples R China;

    Tsinghua Univ Beijing 100084 Peoples R China;

    Tsinghua Univ Beijing 100084 Peoples R China;

    Xinjiang Univ Informat Sci & Engn Coll Urumqi 830046 Peoples R China;

    China Acad Elect & Informat Technol Xinjiang Lianhai INA INT Informat Technol Ltd Urumqi 830000 Peoples R China;

    Xinjiang Univ Informat Sci & Engn Coll Urumqi 830046 Peoples R China;

  • 收录信息 美国《科学引文索引》(SCI);美国《工程索引》(EI);
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类
  • 关键词

    Deep learning; Image-text matching; Multimodal; Retrieval;

    机译:深入学习;图像文本匹配;多式联版;检索;

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号