首页> 中文学位 >用于视频动作检测的时空多任务神经网络
【6h】

用于视频动作检测的时空多任务神经网络

代理获取

目录

声明

摘要

图目录

表目录

1.1 研究背景和意义

1.1.1 研究背景

1.1.2 研究意义

1.2 研究现状

1.2.1 动作识别

1.2.2 动作定位

1.2.3 视频的表达

1.3 研究内容与文章组织结构

1.3.1 研宄内容

1.3.2 文章组织结构

1.4 本章小结

2.1 引言

2.2 图像相关技术

2.2.1 图像识别

2.2.2 目标检测

2.3 视频相关技术

2.3.1 动作识别

2.3.2 动作时序定位

2.3.3 多任务学习

2.3.4 交叉模态表示

2.4 本章小结

3.1 引言

3.2.1 三维卷积操作

3.2.2 分段特征融合

3.2.3 符号描述

3.3 交错图像

3.4 多任务框架

3.4.1 网络结构

3.4.2 损失函数

3.5 模型训练与预测

3.5.1 模型初始化

3.5.2 构建批量训练数据

3.5.3 SGD超参数

3.6 本章小结

4.1 引言

4.3 评价标准

4.3.3 实验环境

4.4.2 分段数量对比

4.4.3 采样策略对比

4.4.4 交错图评测

4.4.5 模型对比

4.4.6 动作检测评测

4.5 本章小结

第5章 总结和展望

5.3 展望

5.4 本章小结

参考文献

攻读硕士学位期间的主要研究成果

致谢

展开▼

摘要

近些年来,通过使用深度学习技术,视频中的动作检测任务已经取得了十分显著的进步。在实际的应用中,更多的需求是在未裁剪的长视频中进行动作检测任务,然而由于在时间维度上定位一个动作的难度较大,目前已有方法的准确率都并不能令人满意。为了解决这一挑战,本文提出了一个基于时空特征的、多任务的、三维卷积神经网络,用于在未剪裁长视频中进行动作检测(包括时序定位)。首先,本文提出了一个融合网络结构,用于在训练阶段提取视频级时空特征。通过在动作识别任务数据集上评价这一融合网络结构,实验结果说明了视频级时空特征的有效性。第二,基于这一融合结构,本文提出了一个时空的多任务神经网络结构,这一网络结构中包含两个分支输出层分别用处动作分类和动作的时序定位。为了达到较高的时序定位的准确率,本文展现了一个新的时序回归方法,用于校正包含一个动作的时序候选框。与此同时,为了更好的利用视频中丰富的运动信息,本文引入了一个新的视频表示方法,交错图像,作为神经网络的一个另外的输入。综合以上本文提出的方法,最终本文的模型在标准数据集上的动作识别任务和动作检测任务上都超过了目前最好的方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号