首页> 中文学位 >视觉问答中的多模态信息融合
【6h】

视觉问答中的多模态信息融合

代理获取

目录

声明

摘要

图目录

表目录

第1章 绪论

1.1 研究背景

1.2 国内外研究现状

1.2.1 Attention结构的研究

1.2.2 特征融合的研究

1.2.3 基于外部知识的模型研究

1.2.4 对模型架构的研究

1.3 论文研究的主要内容与贡献

第2章 视觉问答介绍

2.1 任务描述

2.2 数据集

2.3 基础架构

2.3.1 图像编码

2.3.2 问题编码

2.3.3 Attention机制

2.3.4 特征融合

2.3.5 答案预测

2.4 评估方法

2.5 本章小结

第3章 视觉问答模型的单模态特征融合

3.1 动机与方法

3.2 生成图像描述

3.3 单模态视觉问答模型

3.4 实验及结果

3.4.1 模型训练

3.4.2 实验设计与结果分析

3.5 本章小结

第4章 视觉问答模型中的特征增强

4.1 动机与方法

4.2 为图像区域增补文本特征

4.3 特征增强与Attention机制

4.3.1 模型设计

4.3.2 实验配置

4.3.3 特征增强模型间的比较

4.3.4 不同问题类型下的模型差异

4.3.5 不同特征增强方案下的Attention权重可视化

4.4 附带特征增强的视觉问答模型

4.4.1 模型设计与训练

4.4.2 与现有模型的比较

4.5 本章小结

5.1 工作总结

5.2 讨论与展望

参考文献

攻读硕士学位期间主要的研究成果

致谢

展开▼

摘要

深度学习的兴起引发了又一轮的人工智能热潮,这极大地激发了学者们探索机器认知能力的热情。图像理解作为人类认知世界的一种重要能力,一直以来备受关注。近年来,多项任务被提出用于检验机器的图像理解能力。其中一个被广泛关注的任务是视觉问答。视觉问答任务以一幅图像以及一个关于图像的问题作为输入,要求机器输出能够正确回答问题的答案。相比于“看图说话”、“看图填空”等任务,视觉问答具有易于评估、输入形式简单等优势。对视觉问答任务的研究具有十分重大的意义。理论上,视觉问答任务被认为是一个AI完全问题,可以作为视觉图灵测试的替代;应用上,一个可以回答视觉问题的系统也存在极其广泛的应用前景。
  视觉问答的一个核心问题是如何对图像与问题之间的交互进行建模,这反映了机器对图像与问题中表达的语义进行关联并进一步对答案进行推理的过程。之前已有大量研究期望通过增强特征融合操作的表达能力来实现对该过程更有效地建模。然而,众所周知,来自不同模态的图像与问题间天然存在着语义鸿沟,这阻碍了图像与问题中相同语义信息间的直接交互。另一方面,对图像与文本进行语义关联是一种复杂而通用的能力,仅利用视觉问答任务中的标注数据对该能力进行学习,很难达到理想的效果。因此,本文提出通过为图像增补与之对应的文本数据以简化图像与问题之间交互过程的方法。该方法具有两个优点:其一,为图像增补文本数据的过程可以利用额外的训练数据进行有监督训练,这样能更好地关联图像信息与文本信息;其二,处于文本形式的图像信息与问题之间的交互更加简单,更容易被建模。
  基于为图像增补文本数据的思路,本文首先提出了一个单模态问答模型。该模型将图像转换为对应的文本描述,从而将视觉问答问题转换为文本问答问题,并利用GRU对转换后的文本问答问题进行解决。该模型在COCO-QA数据集上的性能远远超过基准模型,并达到了能与Attention模型相匹敌的结果。随后,为了弥补单模态问答模型中图像信息丢失的缺陷,本文进一步提出了特征增强模型。该模型同时利用文本特征与视觉特征对图像中的信息进行表达,并进一步对文本特征与Attention机制之间的协作关系进行了探究。特征增强模型在最流行的VQA数据集的一个平衡版本上达到了世界一流的性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号