声明
摘要
第1章绪论
1.1课题研究背景及意义
1.2国内外相关研究现状
1.2.1跨模态图像-文本搜索
1.2.2跨模态视频-文本搜索
1.3论文主要研究内容与创新点
1.4论文组织结构
1.5本章小结
第2章相关理论基础
2.1基于深度学习的视频、文本编码
2.1.1卷积神经网络
2.1.2循环神经网络
2.1.3 Transformer
2.1.4 BERT
2.2联合嵌入空间学习
第3章基于堆叠卷积深度编码网络的跨模态视频-文本搜索
3.1引言
3.2方法
3.2.1视频编码器
3.2.2文本编码器
3.2.3堆叠多尺度扩张卷积
3.3模型学习
3.4实验结果
3.4.1实验设置
3.4.2和前沿算法对比
3.4.3消融实验
3.5本章小结
第4章基于记忆增强嵌入学习的跨模态视频-文本搜索
4.1引言
4.2方法
4.2.1总体框架
4.2.2跨模态记忆模块
4.2.3文本中心记忆模块
4.3训练和测试
4.4实验结果
4.4.1实验设置
4.4.2和前沿算法的对比
4.4.3消融实验
4.4.4定性结果分析
4.5本章小结
第5章总结与展望
5.1本文的主要贡献
5.2研究展望
参考文献
致谢
在读期间发表的学术论文与取得的其他研究成果
中国科学技术大学;