声明
摘要
图目录
表目录
第1章 绪论
1.1 研究背景
1.2 国内外研究现状
1.2.1 Attention结构的研究
1.2.2 特征融合的研究
1.2.3 基于外部知识的模型研究
1.2.4 对模型架构的研究
1.3 论文研究的主要内容与贡献
第2章 视觉问答介绍
2.1 任务描述
2.2 数据集
2.3 基础架构
2.3.1 图像编码
2.3.2 问题编码
2.3.3 Attention机制
2.3.4 特征融合
2.3.5 答案预测
2.4 评估方法
2.5 本章小结
第3章 视觉问答模型的单模态特征融合
3.1 动机与方法
3.2 生成图像描述
3.3 单模态视觉问答模型
3.4 实验及结果
3.4.1 模型训练
3.4.2 实验设计与结果分析
3.5 本章小结
第4章 视觉问答模型中的特征增强
4.1 动机与方法
4.2 为图像区域增补文本特征
4.3 特征增强与Attention机制
4.3.1 模型设计
4.3.2 实验配置
4.3.3 特征增强模型间的比较
4.3.4 不同问题类型下的模型差异
4.3.5 不同特征增强方案下的Attention权重可视化
4.4 附带特征增强的视觉问答模型
4.4.1 模型设计与训练
4.4.2 与现有模型的比较
4.5 本章小结
5.1 工作总结
5.2 讨论与展望
参考文献
攻读硕士学位期间主要的研究成果
致谢