首页> 中文学位 >面向视频分析的多模态处理技术
【6h】

面向视频分析的多模态处理技术

代理获取

目录

声明

摘要

第1章绪论

1.1研究背景及意义

1.1.1长视频分析

1.1.2短视频分析

1.1.3视频分析中多模态学习

1.2研究现状

1.2.1跨模态时序视频片段定位

1.2.2短视频地点类别估计

1.3研究目标、研究内容及主要创新点

1.3.1研究目标

1.3.2研究内容

1.3.3主要创新点

1.4论文组织结构

第2章基于树结构引导的多模态字典学习算法

2.1引言

2.2相关工作

2.2.1短视频分析

2.2.2字典学习

2.3增量树结构引导的多模态字典学习

2.3.1单模态字典学习

2.3.2多模态字典学习

2.3.3基于树结构引导的多模态字典学习

2.3.4优化INTIMATE模型

2.3.5在线优化INTIMATE模型

2.4实验结果和分析

2.4.1实验设置

2.4.2性能比较

2.4.3参数分析

2.4.4在线学习分析

2.4.5层次平滑性分析

2.4.6模态组合性能分析

2.4.7可视化视觉模态稀疏表示

2.4.8短视频地点分类示例

2.5本章小结

第3章基于多模态序列建模的深度学习模型

3.1引言

3.2相关工作

3.2.1长短期记忆递归神经网络

3.2.2卷积神经网络

3.3创建短视频数据集

3.3.1短视频数据采集

3.3.2多模态序列信息提取

3.4带有稀疏约束的多模态时序建模

3.4.1时序特征提取

3.4.2时序特征嵌入

3.4.3稀疏概念表示学习

3.5实验结果与分析

3.5.1实验设置

3.5.2性能比较

3.5.3不同Epoch的性能比较

3.5.4时序特征分析

3.5.5模态组合性能分析

3.5.6参数设置

3.5.7分类结果研究

3.6本章小结

第4章基于时序记忆和张量融合的跨模态检索模型

4.1引言

4.2相关工作

4.2.1视频检索

4.2.2时序动作片段定位

4.2.3视频描述和问答

4.3跨模态检索模型

4.3.1问题描述

4.3.2记忆注意力网络

4.3.3多模态融合网络

4.3.4模型学习

4.4实验结果与分析

4.4.1实验设置

4.4.2性能比较

4.4.3分析ACRN模型

4.4.4定性结果

4.5本章小结

第5章基于语言-时序注意力网络的跨模态检索模型

5.1引言

5.2相关工作

5.2.1引用表达式定位

5.2.2时序动作片段定位

5.2.3视频中的语言定位

5.3时序视频片段定位

5.3.1问题描述

5.3.2时序视频片段定位模型

5.4本章提出的检索模型

5.4.1语言-时序注意力网络

5.4.2损失函数

5.5实验结果与分析

5.5.1数据集介绍

5.5.2实验设置

5.5.3性能比较

5.5.4研究ROLE的变体

5.5.5可视化注意力值

5.5.6定性结果

5.6本章小结

第6章总结与展望

6.1全文总结

6.2工作展望

参考文献

致谢

攻读学位期间发表的学术论文目录

攻读学位期间参与科研项目及获奖情况

外文论文

展开▼

著录项

  • 作者

    刘萌;

  • 作者单位

    山东大学;

  • 授予单位 山东大学;
  • 学科 计算机科学与技术
  • 授予学位 博士
  • 导师姓名 陈宝权,聂礼强;
  • 年度 2019
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    视频分析; 多模态;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号