首页> 中国专利> 一种基于密集轨迹的动作识别方法

一种基于密集轨迹的动作识别方法

摘要

本发明公开一种基于密集轨迹的动作识别方法,包括:1)对输入视频每一帧的用密集采样法获取密集点,并对密集点在光流域中进行跟踪,形成该视频的轨迹;2)对轨迹进行筛选,提取位于中心区域的轨迹视作前景的轨迹,将区域外的轨迹视作背景轨迹进行删除;3)提取轨迹的形状特征,梯度方向直方图特征,光流直方图特征,运动边缘直方图特征,以及运动邻域特征;4)对每一种特征分别采用增强型局部级联描述子向量方法进行特征表示,得到3)中五种特征的向量表示,将这五种特征向量级联起来,得到最终这个视频的中层表示;5)采用支持向量机进行特征分类,得到识别准确率。

著录项

  • 公开/公告号CN105956517A

    专利类型发明专利

  • 公开/公告日2016-09-21

    原文格式PDF

  • 申请/专利号CN201610249911.7

  • 发明设计人 胡海峰;肖翔;张伟;顾建权;

    申请日2016-04-20

  • 分类号G06K9/00(20060101);G06K9/62(20060101);

  • 代理机构44102 广州粤高专利商标代理有限公司;

  • 代理人林丽明

  • 地址 528300 广东省佛山市顺德区大良南国东路9号研究院

  • 入库时间 2023-06-19 00:30:14

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-08-02

    授权

    授权

  • 2017-04-05

    专利申请权的转移 IPC(主分类):G06K9/00 登记生效日:20170316 变更前: 变更后: 申请日:20160420

    专利申请权、专利权的转移

  • 2016-10-19

    实质审查的生效 IPC(主分类):G06K9/00 申请日:20160420

    实质审查的生效

  • 2016-09-21

    公开

    公开

说明书

技术领域

本发明涉及计算机视觉领域,更具体地,涉及一种基于密集轨迹的动作识别方法。

背景技术

科技的发展使得摄像设备得到了普及,数量巨大的视频数据也随之产生。同时,针对视频的应用也应运而生:智能视频监控、视频数据分类、高级人机交互等。在这些应用中,针对人的动作进行理解是最核心的关注点,也是人们研究的核心内容。

由于人体动作识别有很大的潜在价值,所以此课题作为一个研究热点已经持续了至少五年时间,很多种方法都被提出,例如:基于密集轨迹(DT)的方法、基于时空兴趣点的方法以及基于卷积神经网络的方法等。其中,基于DT的方法和基于CNN的方法研究的人数最多,因为这两种方法能够取得目前最好的结果。然而,深层CNN网络由于有大量的参数需要通过学习获得,而目前绝大部分数据集并不能满足深层CNN网络学习所需的规模,因此限制了深层CNN网络在动作识别领域的应用。此外,深层CNN网络的训练过程所耗费的时间相当多,对参数进行优化是一个长期的过程,这个条件进一步限制了CNN方法在基于视频的动作识别领域的延伸。所以,我们的动作识别研究将会针对基于密集轨迹的方法。

基于密集轨迹的方法的主要思想是:首先,对视频帧进行密集采样以提取兴趣点,然后使用基于光流的方法在不同的尺度空间中跟踪这些兴趣点以形成轨迹;接下来通过计算轨迹的各种特征:形状特征、静态特征、动态特征等,组成轨迹的描述子;这些轨迹描述子将会使用词袋模型进行编码,生成最终的视频层表达特征;这些特征会被放入分类器中进行分类,以完成最终的识别过程。很多学者在这个基础上进行了探索和改进。Jain等人提出了一种将轨迹的运动分解成前景运动和摄像头运动,去除摄像头运动,以此提升识别效果。Murthy等人将相邻轨迹结合成一条轨迹,减少了轨迹的冗余,提高了计算速度。Wang等人采用了人体检测方法将场景中的人检测出来,然后提取前景目标的轨迹,取得了更好的效果。Jiang等人提出了全局参考点和局部参考点来获取轨迹的运动信息同时抑制摄像头导致的全局运动。上述方法都取得了较好的效果,但是现存的基于轨迹的研究通常忽略了轨迹之间的相对位置关系和运动关系,而这些线索对于提高基于轨迹的识别准确率是有帮助的。

发明内容

为了克服上述现有技术的不足,本发明提供了一种基于密集轨迹的动作识别方法。该方法将视频数据集的视频作为输入,进行视频特征提取和识别,最后输出视频的分类结果,该方法具有计算量低,识别效果好的特点。

为了达到上述目的,本发明采用的技术方案是:

一种基于密集轨迹的动作识别方法,包括以下步骤:

(1)输入待识别的视频,对输入视频的每一帧,利用密集采样得到密集的抽样点,对抽样点进行跟踪形成密集轨迹;

(2)筛选出视频帧中心区域的轨迹作为前景轨迹,区域以外的轨迹视作背景轨迹予以删除;

(3)提取视频帧中心区域内的前景轨迹的五种描述子特征:形状特征(TS),梯度方向直方图特征(HOG),光流直方图特征(HOF),运动边缘直方图特征(MBH)以及轨迹运动邻域特征(TMNF);

(4)对步骤(3)提取的每一种描述子特征分别采用增强型局部级联描述子向量方法(IVLAD)进行特征建模,得到每一种描述子特征的向量表示,然后将这五种特征向量级联起来,形成该视频最终的向量表示;

(5)采用支持向量机(SVM)进行特征分类,最终输出分类结果,获取视频的动作识别结果,在YouTube人体行为数据集上实现了91.4%的准确率。

本发明基于密集轨迹方法,并且通过探索邻域轨迹之间的关系,提出了一种新的运动邻域描述子,它能够有效地获取相邻轨迹的位置信息和运动信息,并且结合了增强型的局部级联描述子向量,显著提高了动作识别的准确率。

优选的,步骤(1)中,利用密集采样在多个尺度空间得到不同尺度的密集抽样点,计算密集光流域,在密集光流域中采用中值滤波的方法对密集抽样点进行跟踪,形成密集的轨迹。

优选的,步骤(2)中,选取视频帧大小的2/3区域作为中心区域,该中心区域作为前景轨迹,大多数动作的发生均位于这个区域内,从密集轨迹中筛选出位于此区域内的轨迹,对区域外的轨迹予以删除。

优选的,步骤(3)中,根据前景轨迹在当前帧与上一帧的相对位移,形成前景轨迹的形状特征(TS);根据前景轨迹的梯度的方向信息,形成方向梯度直方图特征(HOG);根据前景轨迹的光流方向特征,形成光流直方图特征(HOF);根据光流导数的方向信息,形成运动边缘直方图特征(MBH);根据邻域轨迹的空间位置和运动关系,形成前景轨迹运动邻域特征(TMNF)。

优选的,步骤(4)中,描述子特征表示为{x1,...xi,...xd},d表示该描述子特征的总维数,对描述子特征{x1,...xi,...xd},假设利用k-means聚类已经学习得到的码本(codebook)和k个中心(c1,...cj,...ck),采用增强型局部级联描述子向量方法(IVLAD)对特征进行特征建模,具体过程如下:

(5-1)描述子特征的每一维xi赋给码本(codebook)中离该描述子特征最近的聚类中心cj,然后得到量化后的索引:NN(xi)=argminj||xi-cj||

(5-2)将所有离聚类中心cj最近的描述子特征,计算这些描述子特征和中心cj的差的累积和并且进行归一化,获得子向量:

>uj=Σi:NN(xi)=jxi-cj||xi-cj||>

(5-3)将各子向量uj连接起来,得到k×d维的向量表示u=[u1...uk];

(5-4)对向量u先采用“power-law”归一化处理,即:

vj=|vj|α×sign(vj),j=1...k×d,α=0.2

随后用2范数归一化(L2-normalized),最终得到该描述子特征的IVLAD表示。

本发明相对于现有技术具有如下的优点及效果:

1、本发明提出了一种新的描述子特征来获取轨迹之间的位置方向信息和运动邻域信息。

2、本发明利用的中心区域能够有效地减少背景的轨迹,同时也降低了计算量。

3、本发明将增强型局部级联描述子结合轨迹特征进行识别,提升了识别效果。

附图说明

附图为本发明的总体流程图;

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

附图给出了本发明的操作过程,如图所示,一种基于视频分析的人群计数方法,包括以下步骤:

(1)对输入视频,利用密集采样得到密集的抽样点,对抽样点进行跟踪形成密集轨迹;

(2)筛选出视频帧中心区域的轨迹作为前景轨迹,区域以外的轨迹视作背景轨迹予以删除;

(3)提取区域内的轨迹的五种描述子特征:形状特征(TS),梯度方向直方图特征(HOG),光流直方图特征(HOF),运动边缘直方图特征(MBH),以及轨迹运动邻域特征(TMNF);

(4)对每一种特征分别采用增强型局部级联描述子向量方法(IVLAD)进行特征建模,得到每一种特征的向量表示,然后将这五种特征向量级联起来,形成该视频最终的向量表示;

(5)采用支持向量机(SVM)进行特征分类,最终输出动作视频的识别准确率。

进一步地,步骤(1)中的具体过程如下:利用密集采样在多个尺度空间得到不同尺度的密集抽样点,计算密集光流域,在密集光流域中采用中值滤波的方法对密集抽样点进行跟踪,形成密集的轨迹。

步骤(2)中的具体过程如下:选取视频帧大小的2/3区域作为中心区域,大多数动作的发生均位于这个区域内,从密集轨迹中筛选出位于此区域内的轨迹,对区域外的轨迹予以删除。

步骤(3)中的具体过程如下:根据轨迹在当前帧与上一帧的相对位移,形成轨迹的形状特征(TS);根据轨迹的梯度的方向信息,形成方向梯度直方图特征(HOG);根据轨迹的光流方向特征,形成光流直方图特征(HOF);根据光流导数的方向信息,形成运动边缘直方图特征(MBH);根据邻域轨迹的空间位置和运动关系,形成轨迹运动邻域特征(TMNF);

步骤(4)中的具体过程如下:对每一种特征{x1,...xi,...xd},假设利用k-means聚类已经学习得到的码本(codebook)和k个中心(c1,...cj,...ck),采用IVLAD对特征进行特征建模,具体过程如下:

(1)特征的每一维xi赋给码本中离它最近的中心,然后得到量化后的索引:

NN(xi)=argminj||xi-cj||

(2)将描述子集合指派给一个中心cj,通过这些描述子和它的中心的差的累积和并且进行归一化,获得子向量:

>uj=Σi:NN(xi)=jxi-cj||xi-cj||>

(3)将子向量uj连接起来,得到k×d维的向量表示u=[u1...uk]。

(4)对向量u先采用“power-law”归一化,即:

vj=|vj|α×sign(vj),j=1...k×d,α=0.2

随后用2范数归一化(L2-normalized),最终得到特征的IVLAD表示。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号