声明
摘要
第1章绪论
1.1研究背景及意义
1.1.1长视频分析
1.1.2短视频分析
1.1.3视频分析中多模态学习
1.2研究现状
1.2.1跨模态时序视频片段定位
1.2.2短视频地点类别估计
1.3研究目标、研究内容及主要创新点
1.3.1研究目标
1.3.2研究内容
1.3.3主要创新点
1.4论文组织结构
第2章基于树结构引导的多模态字典学习算法
2.1引言
2.2相关工作
2.2.1短视频分析
2.2.2字典学习
2.3增量树结构引导的多模态字典学习
2.3.1单模态字典学习
2.3.2多模态字典学习
2.3.3基于树结构引导的多模态字典学习
2.3.4优化INTIMATE模型
2.3.5在线优化INTIMATE模型
2.4实验结果和分析
2.4.1实验设置
2.4.2性能比较
2.4.3参数分析
2.4.4在线学习分析
2.4.5层次平滑性分析
2.4.6模态组合性能分析
2.4.7可视化视觉模态稀疏表示
2.4.8短视频地点分类示例
2.5本章小结
第3章基于多模态序列建模的深度学习模型
3.1引言
3.2相关工作
3.2.1长短期记忆递归神经网络
3.2.2卷积神经网络
3.3创建短视频数据集
3.3.1短视频数据采集
3.3.2多模态序列信息提取
3.4带有稀疏约束的多模态时序建模
3.4.1时序特征提取
3.4.2时序特征嵌入
3.4.3稀疏概念表示学习
3.5实验结果与分析
3.5.1实验设置
3.5.2性能比较
3.5.3不同Epoch的性能比较
3.5.4时序特征分析
3.5.5模态组合性能分析
3.5.6参数设置
3.5.7分类结果研究
3.6本章小结
第4章基于时序记忆和张量融合的跨模态检索模型
4.1引言
4.2相关工作
4.2.1视频检索
4.2.2时序动作片段定位
4.2.3视频描述和问答
4.3跨模态检索模型
4.3.1问题描述
4.3.2记忆注意力网络
4.3.3多模态融合网络
4.3.4模型学习
4.4实验结果与分析
4.4.1实验设置
4.4.2性能比较
4.4.3分析ACRN模型
4.4.4定性结果
4.5本章小结
第5章基于语言-时序注意力网络的跨模态检索模型
5.1引言
5.2相关工作
5.2.1引用表达式定位
5.2.2时序动作片段定位
5.2.3视频中的语言定位
5.3时序视频片段定位
5.3.1问题描述
5.3.2时序视频片段定位模型
5.4本章提出的检索模型
5.4.1语言-时序注意力网络
5.4.2损失函数
5.5实验结果与分析
5.5.1数据集介绍
5.5.2实验设置
5.5.3性能比较
5.5.4研究ROLE的变体
5.5.5可视化注意力值
5.5.6定性结果
5.6本章小结
第6章总结与展望
6.1全文总结
6.2工作展望
参考文献
致谢
攻读学位期间发表的学术论文目录
攻读学位期间参与科研项目及获奖情况
外文论文