声明
摘要
1.1 研究背景与意义
1.2 研究难点
1.3 发展现状
1.4 研究内容与创新点
1.5 文章组织结构
1.6 本章小结
2.1 引言
2.2 基于图片数据的视觉问答技术
2.2.1 基于基础技术和嵌入向量的工作
2.2.2 基于注意力机制和记忆机制的工作
2.2.3 基于外部知识的工作
2.3 基于视频数据的视频问答技术
2.3.1 基于静态图片特征的相关工作
2.3.2 以整体动态为特征的相关工作
2.4 本章小结
第3章 基于多级注意力机制的视频问答算法
3.1 问题模型分析
3.2 多层次注意力算法总体框架
3.3 识别视觉特征的卷积神经网络
3.3.1 神经网络基础及常见技巧概要
3.3.2 识别图像特征的卷积神经网络
3.3.3 识别视频特征的卷积神经网络
3.4 识别文本特征的词嵌入向量
3.5 学习连续数据的循环神经网络
3.6 注意力机制
3.7 基于多层次注意力机制的算法细节
3.8 本章小结
4.1 实验数据集
4.2 基准算法概要
4.3 实验参数概要
4.4 算法效果对比与分析
4.5 算法思路验证
4.6 本章小结
5.1 全文总结
5.2 研究展望
参考文献
攻读硕士学位期间的主要研究成果
致谢