声明
第一章 绪论
1.1 课题研究背景及意义
1.2 国内外研究现状
1.3 本文的主要研究内容
1.4 本论文的结构安排
第二章 相关技术介绍
2.1 残差网络
2.2 图卷积网络
2.3 LSTM
2.4 Transformer
2.4.1 比例点积注意力
2.4.2 多头注意力
2.4.3 基于位置的前馈网络
2.4.4 编码器
2.4.5 解码器
2.5 Faster R-cnn
2.5.1 Region Proposal Network
2.5.2 ROI池化
2.5.3 输出层
2.6 场景图
2.7 本章小结
第三章 场景图构建算法
3.1 数据集及数据预处理
3.1.1 Visual Genome数据集
3.1.2 数据预处理
3.2 基于Faster R-cnn的目标检测
3.2.1 匹配目标标签
3.2.2 损失函数
3.2.3 非极大值抑制
3.2.4 目标节点构建
3.3 目标属性检测
3.4 基于自注意力剪枝的目标关系检测
3.4.1 目标特征Embedding
3.4.2 基于自注意力的剪枝
3.4.3 目标关系检测
3.5 建立场景图
3.6 实验设置及结果
3.6.1 目标检测结果及分析
3.6.2 目标属性检测结果及分析
3.6.3 剪枝模型实验结果及分析
3.6.4 场景图构建算法实验结果及分析
3.7 本章小结
第四章 针对目标的视频文字描述生成模型
4.1 建立任务数学模型
4.2 图卷积帧内编码
4.2.1 场景图结构简化
4.2.2 基于注意力机制的有向图卷积
4.3 视频帧间编码
4.4 特征解码模块
4.5 评价指标
4.5.1 Bleu
4.5.2 CIDEr
4.6 基于强化学习的评估指标优化
4.7 实验结果及分析
4.7.1 MSR-VTT数据集
4.7.2 数据预处理
4.7.3 实验结果评估
4.8 本章小结
第五章 全文总结与展望
5.1 全文总结
5.2 后续工作展望
致谢
参考文献