首页> 中文学位 >基于鉴别主题和时序结构的动作识别
【6h】

基于鉴别主题和时序结构的动作识别

代理获取

目录

声明

摘要

插图目录

表格目录

1绪论

1.1动作识别的研究背景和意义

1.2动作识别面临的挑战

1.3动作识别的研究动态

1.3.1特征提取与描述方法

1.3.2特征编码方法

1.3.3建模与分类方法

1.4实验数据集简介

1.5本文的主要工作

1.6后续内容安排

2基于监督概率潜在语义分析的动作识别

2.1引言

2.2相关工作

2.2.2潜在狄利克雷分配的研究进展

2.3监督概率潜在语义分析

2.3.1 概率潜在语义分析的简单回顾

2.3.2监督pLSA

2.3.3模型的拟合

2.3.4时间复杂度分析

2.3.5基于spLSA的分类

2.4实验结果与分析

2.4.1实验设置

2.4.2与其它主题模型的识别率比较

2.4.3与其它主题模型的运行时间比较

2.4.4与相关先进方法的比较

2.4.5讨论

2.5本章小结

3基于多尺度排序池化的动作识别

3.1引言

3.2相关工作

3.2.1短时时空特征提取

3.2.2 中时时空结构挖掘

3.3多尺度排序池化

3.3.1排序池化

3.3.2目标函数

3.3.3优化

3.3.4计算复杂度分析

3.4实验结果与分析

3.4.1特征提取

3.4.2与基准方法的比较

3.4.3尺度数量对性能的影响

3.4.4收敛性验证实验

3.4.5 与相关先进方法的比较

3.5本章小结

4基于潜在持续时间模型的动作识别

4.1引言

4.2相关工作

4.2.1多时间尺度

4.3潜在持续时间模型

4.3.1视频特征表示

4.3.2潜在持续时间模型

4.3.3潜在变量推理

4.3.4参数学习

4.3.5与其它方法的关系

4.4实验结果与分析

4.4.1降维性能验证

4.4.2模型参数的影响

4.4.3 LDM中不同模块的性能验证

4.4.4与相关先进方法的比较

4.5本章小结

5基于层级模型和树核的动作识别

5.1引言

5.2相关工作

5.2.1层级模型

5.2.2树核

5.3动态层级树

5.3.1基于最小最大DTW的原子动作发现

5.3.2动态层级树的构建过程

5.4 k近邻边对核

5.5实验结果与分析

5.5.1实验设量

5.5.2参数的影响

5.5.3不同原子动作发现算法的比较

5.5.4不同树核的比较

5.5.5与相关先进方法的比较

5.5.6本文所提方法的比较

5.6本章小结

6总结与展望

6.1工作总结

6.2工作展望

致谢

参考文献

附录

展开▼

摘要

视频动作识别是计算机视觉领域中的一项核心技术,其任务是给定一些训练样本及预定义的动作类别,自动化地预测未知视频中所出现动作的类别标签。动作识别具有重要的研究意义和价值,在智能视频监控、人机交互、基于内容的信息检索以及辅助生活环境等领域有着广泛的应用前景。针对现有方法在语义分析、长时动态进化建模、子动作之间的时序结构和层级建模等方面存在的问题,本文从四个研究层次对动作识别进行了深入的研究,提出了四种新方法。 (1)提出了一种监督概率潜在语义分析(supervised probabilistic Latent Semantic Analysis,spLSA)方法。由于概率潜在语义分析(probabilistic Latent Semantic Analysis,pLSA)本质上是一种非监督的语义分析方法,当使用它及其它扩展方法进行视频动作分类时,训练样本的类别标签在模型的训练过程中没有被充分利用,从而导致所学习的主题缺乏足够的鉴别力。为了学习到鉴别主题,spLSA将类别信息引入到单词和动作样本的生成过程中,用条件概率描述潜在主题与类别标签之间的映射关系。spLSA是一个统一的架构,可以同时进行潜在语义分析和动作视频的分类。在模型拟合过程中,spLSA通过期望最大化算法迭代完成参数的学习,每一次迭代均使全部训练数据的对数相似度取最大值。通过类别信息的使用,spLSA在保留语义分析能力的同时,增强了潜在主题的鉴别能力。 (2)提出了一种多尺度排序池化(Multi-scale Rank Pooling,MSRP)方法。该方法以“视频帧”为基本建模对象,捕捉动作视频中的多尺度长时动态进化模式。大多数现有的方法是在两个阶段分别考虑进化建模和多尺度特征融合,无法捕捉最优的动态进化模式。为了解决这一问题,MSRP在排序池化(Rank Pooling)方法的基础上,通过一个时间多尺度平滑向量将多种时间尺度的特征结合在一起之后,再进行视频帧的平滑操作。MSRP在一个联合学习框架中利用两种结构风险最小化方法(即回归结构风险和分类结构风险)进行目标函数优化,同时学习平滑向量、进化模式和分类器权重等参数,从而能够建立一个鉴别且灵活的多尺度平滑方案,避免由单一时间尺度或固定多尺度平滑而造成的信息丢失问题。另外,由于工作在池化阶段,MSRP能够学习到紧凑的动态进化特征,并没有增加特征向量的维数。 (3)提出了一种潜在持续时间模型(Latent Duration Model,LDM)。该模型以“视频段”为基本建模对象,是可变形组件模型的一个时序变体。LDM为每一类动作学习一个动作模板,其中包含一个根模板和若干个具有严格单调时序约束的子动作模板。为增强子动作模板的鉴别性,LDM引入了三种不同类型的潜在变量:“潜在持续时间变量”用来描述同一子动作在不同视频样本中时间尺度的变化,“潜在位置变量”和“潜在代表变量”共同用来定位持续时间中最有鉴别力的视频段。对于子动作之间的时序结构,除了单调时序约束外,还使用相邻子动作之间“持续时间比率”对其建模。“持续时间比率”具有较强的灵活性和鲁棒性,能够容纳同一类动作在不同样本中运动速度和视角等方面的差异。LDM不仅能自动识别具有自适应持续时间的鉴别子动作,而且还能自动识别相邻子动作之间稳定的成对关系。 (4)提出了一种层级建模方法。该方法自底向上地为每一个动作视频构建一个动态层级树(Dynamic Hierarchical Tree,DHT)。与现有仅使用特征向量进行层级构建的方法不同,该方法综合考虑特征向量的相似性和动态进化模式的兼容性这两个重要指标,从而使得所生成的树形结构更适用于视频中动作的描述。为保证叶子节点中的视频段是有意义的原子动作,使用一种带有最小长度和最大长度约束的DTW算法(min max DTW)对动作视频进行初始分割,其中最小长度约束能够使原子动作包含稳定的运动模式,而最大长度约束能够保证原子动作所包含的运动模式是简单、一致的。本文还提出了一种k近邻边对核(k-Nearest Neighbor Edge Pairs Kernel,kNNEP Kernel),借鉴“k近邻”思想,将树核中边之间的相似度通过多个相似度的平均值来度量,这样可以有效避免噪音节点对分类性能的干扰。 对提出的四种方法,在公开数据集上进行了实验,实验结果表明所提方法具有较高的性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号