基于鉴别主题和时序结构的动作识别

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

视频动作识别是计算机视觉领域中的一项核心技术，其任务是给定一些训练样本及预定义的动作类别，自动化地预测未知视频中所出现动作的类别标签。动作识别具有重要的研究意义和价值，在智能视频监控、人机交互、基于内容的信息检索以及辅助生活环境等领域有着广泛的应用前景。针对现有方法在语义分析、长时动态进化建模、子动作之间的时序结构和层级建模等方面存在的问题，本文从四个研究层次对动作识别进行了深入的研究，提出了四种新方法。 (1)提出了一种监督概率潜在语义分析(supervised probabilistic Latent Semantic Analysis，spLSA)方法。由于概率潜在语义分析(probabilistic Latent Semantic Analysis，pLSA)本质上是一种非监督的语义分析方法，当使用它及其它扩展方法进行视频动作分类时，训练样本的类别标签在模型的训练过程中没有被充分利用，从而导致所学习的主题缺乏足够的鉴别力。为了学习到鉴别主题，spLSA将类别信息引入到单词和动作样本的生成过程中，用条件概率描述潜在主题与类别标签之间的映射关系。spLSA是一个统一的架构，可以同时进行潜在语义分析和动作视频的分类。在模型拟合过程中，spLSA通过期望最大化算法迭代完成参数的学习，每一次迭代均使全部训练数据的对数相似度取最大值。通过类别信息的使用，spLSA在保留语义分析能力的同时，增强了潜在主题的鉴别能力。 (2)提出了一种多尺度排序池化（Multi-scale Rank Pooling，MSRP）方法。该方法以“视频帧”为基本建模对象，捕捉动作视频中的多尺度长时动态进化模式。大多数现有的方法是在两个阶段分别考虑进化建模和多尺度特征融合，无法捕捉最优的动态进化模式。为了解决这一问题，MSRP在排序池化(Rank Pooling)方法的基础上，通过一个时间多尺度平滑向量将多种时间尺度的特征结合在一起之后，再进行视频帧的平滑操作。MSRP在一个联合学习框架中利用两种结构风险最小化方法（即回归结构风险和分类结构风险）进行目标函数优化，同时学习平滑向量、进化模式和分类器权重等参数，从而能够建立一个鉴别且灵活的多尺度平滑方案，避免由单一时间尺度或固定多尺度平滑而造成的信息丢失问题。另外，由于工作在池化阶段，MSRP能够学习到紧凑的动态进化特征，并没有增加特征向量的维数。 (3)提出了一种潜在持续时间模型(Latent Duration Model，LDM)。该模型以“视频段”为基本建模对象，是可变形组件模型的一个时序变体。LDM为每一类动作学习一个动作模板，其中包含一个根模板和若干个具有严格单调时序约束的子动作模板。为增强子动作模板的鉴别性，LDM引入了三种不同类型的潜在变量:“潜在持续时间变量”用来描述同一子动作在不同视频样本中时间尺度的变化，“潜在位置变量”和“潜在代表变量”共同用来定位持续时间中最有鉴别力的视频段。对于子动作之间的时序结构，除了单调时序约束外，还使用相邻子动作之间“持续时间比率”对其建模。“持续时间比率”具有较强的灵活性和鲁棒性，能够容纳同一类动作在不同样本中运动速度和视角等方面的差异。LDM不仅能自动识别具有自适应持续时间的鉴别子动作，而且还能自动识别相邻子动作之间稳定的成对关系。 (4)提出了一种层级建模方法。该方法自底向上地为每一个动作视频构建一个动态层级树(Dynamic Hierarchical Tree，DHT)。与现有仅使用特征向量进行层级构建的方法不同，该方法综合考虑特征向量的相似性和动态进化模式的兼容性这两个重要指标，从而使得所生成的树形结构更适用于视频中动作的描述。为保证叶子节点中的视频段是有意义的原子动作，使用一种带有最小长度和最大长度约束的DTW算法(min max DTW)对动作视频进行初始分割，其中最小长度约束能够使原子动作包含稳定的运动模式，而最大长度约束能够保证原子动作所包含的运动模式是简单、一致的。本文还提出了一种k近邻边对核(k-Nearest Neighbor Edge Pairs Kernel，kNNEP Kernel)，借鉴“k近邻”思想，将树核中边之间的相似度通过多个相似度的平均值来度量，这样可以有效避免噪音节点对分类性能的干扰。对提出的四种方法，在公开数据集上进行了实验，实验结果表明所提方法具有较高的性能。

著录项

作者
王廷蔚;
展开▼
作者单位

南京理工大学;

展开▼
授予单位南京理工大学;
学科计算机应用技术
授予学位博士
导师姓名刘传才;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动化基础理论;地球物理学;
关键词
鉴别; 主题; 时序结构;

相似文献

中文文献
外文文献
专利

1. 基于空间骨架时序图的舞蹈特定动作识别方法 [J] . 毕雪超 . 信息技术 . 2019,第011期
2. 基于时序深度置信网络的在线人体动作识别 [J] . 周风余 ,尹建芹 ,杨阳 . 自动化学报 . 2016,第007期
3. 基于主题迁移的跨视角动作识别 [J] . 王红军 ,张良 ,张英男 . 科学技术与工程 . 2015,第023期
4. 基于概率主题模型的动作识别算法研究 [J] . 王向慧 . 长春工程学院学报（自然科学版） . 2011,第003期
5. 基于时空兴趣点和主题模型的动作识别 [J] . 胡斐 ,罗立民 ,刘佳 . 东南大学学报（自然科学版） . 2011,第005期
6. 基于主题迁移的跨视角动作识别 [C] . 刘佳 ,钮可 ,杨晓元 . 第二届全国图象图形联合学术会议 . 2013
7. 基于肌电时序信号的组合动作识别研究 [A] . 刘宜欣 . 2021

基于鉴别主题和时序结构的动作识别

目录

摘要

著录项

相似文献

相关主题

期刊订阅