视觉问答中的多模态信息融合

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

深度学习的兴起引发了又一轮的人工智能热潮，这极大地激发了学者们探索机器认知能力的热情。图像理解作为人类认知世界的一种重要能力，一直以来备受关注。近年来，多项任务被提出用于检验机器的图像理解能力。其中一个被广泛关注的任务是视觉问答。视觉问答任务以一幅图像以及一个关于图像的问题作为输入，要求机器输出能够正确回答问题的答案。相比于“看图说话”、“看图填空”等任务，视觉问答具有易于评估、输入形式简单等优势。对视觉问答任务的研究具有十分重大的意义。理论上，视觉问答任务被认为是一个AI完全问题，可以作为视觉图灵测试的替代;应用上，一个可以回答视觉问题的系统也存在极其广泛的应用前景。
　　视觉问答的一个核心问题是如何对图像与问题之间的交互进行建模，这反映了机器对图像与问题中表达的语义进行关联并进一步对答案进行推理的过程。之前已有大量研究期望通过增强特征融合操作的表达能力来实现对该过程更有效地建模。然而，众所周知，来自不同模态的图像与问题间天然存在着语义鸿沟，这阻碍了图像与问题中相同语义信息间的直接交互。另一方面，对图像与文本进行语义关联是一种复杂而通用的能力，仅利用视觉问答任务中的标注数据对该能力进行学习，很难达到理想的效果。因此，本文提出通过为图像增补与之对应的文本数据以简化图像与问题之间交互过程的方法。该方法具有两个优点:其一，为图像增补文本数据的过程可以利用额外的训练数据进行有监督训练，这样能更好地关联图像信息与文本信息;其二，处于文本形式的图像信息与问题之间的交互更加简单，更容易被建模。
　　基于为图像增补文本数据的思路，本文首先提出了一个单模态问答模型。该模型将图像转换为对应的文本描述，从而将视觉问答问题转换为文本问答问题，并利用GRU对转换后的文本问答问题进行解决。该模型在COCO-QA数据集上的性能远远超过基准模型，并达到了能与Attention模型相匹敌的结果。随后，为了弥补单模态问答模型中图像信息丢失的缺陷，本文进一步提出了特征增强模型。该模型同时利用文本特征与视觉特征对图像中的信息进行表达，并进一步对文本特征与Attention机制之间的协作关系进行了探究。特征增强模型在最流行的VQA数据集的一个平衡版本上达到了世界一流的性能。

著录项

作者
庞章阳;
展开▼
作者单位

浙江大学;

展开▼
授予单位浙江大学;
学科计算机技术
授予学位硕士
导师姓名王东辉;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP391.41;
关键词
视觉问答; 图像处理; 文本数据; 特征增强; 深度学习;

相似文献

中文文献
外文文献
专利

1. 基于多模态推理图神经网络的场景文本视觉问答模型 [J] . 张海涛 ,郭欣雨 . 计算机应用研究 . 2022,第1期
2. 基于多模态双向导向注意的视觉问答 [J] . 鲜荣 ,何小海 ,吴晓红 . 太赫兹科学与电子信息学报 . 2021,第001期
3. 基于多模态双向导向注意的视觉问答 [J] . 鲜荣 ,何小海 ,吴晓红 . 太赫兹科学与电子信息学报 . 2021,第001期
4. 基于双目视觉信息融合的移动机器人避障研究基于双目视觉信息融合的移动机器人避障研究 [J] . 谷凤伟 ,金西虎 ,姜珊 . 电子世界 . 2015,第018期
5. 多模态符号学理论下多模态意义建构中模态间的并协与互补——一个大学校徽图案的视觉语法分析 [J] . 毛现桩 . 科技风 . 2016,第020期
6. 基于多模态信息融合的可穿戴监控系统 [C] . 范长军 ,朱敏杰 ,李昀 . 全国抗恶劣环境计算机第二十七届学术年会 . 2017
7. 基于多模态信息融合的生成式问答系统研究 [A] . 廖文雄 . 2020

视觉问答中的多模态信息融合

目录

摘要

著录项

相似文献

相关主题

期刊订阅