首页> 中文期刊> 《太赫兹科学与电子信息学报》 >基于多模态双向导向注意的视觉问答

基于多模态双向导向注意的视觉问答

         

摘要

针对视觉问答(VQA)任务中现存深度协同注意模型只考虑问题引导图像的单向注意方式,导致多模态学习交互性不足的问题,提出一种多模态双向导向注意力网络。该网络由多模态特征提取模块、双向导向注意力模块、特征融合模块以及分类器组成。将提取出的图像和问题特征分别经过层层注意后输出加权的注意特征;经过特征线性融合后送入softmax分类器,得到问题的预测答案;再结合计数模块提升模型的计数能力。结果表明,该模型在公共数据集VQA v2.0上表现良好,在testdev和teststd测试子集上分别获得70.77%、71.28%的总体分类准确率,与大多数先进模型相比,体现出一定优势。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号