首页> 中国专利> 一种视频图像中的人体动作识别方法

一种视频图像中的人体动作识别方法

摘要

本发明公开了一种视频图像中的人体动作识别方法,包括以下步骤:一,对各帧输入图像进行预处理得到前景区域,对前景区域进行筛选得到目标区域;二,根据目标区域获取目标轮廓;三,获得X和Y方向的轮廓能量变化直方图;四,对轮廓能量变化直方图进行归一化处理;五,训练阶段:对轮廓能量变化直方图形成的训练集进行动作分类,得到人体行为模型并赋予权值;六,在识别阶段:将待测帧的轮廓能量直方图与训练阶段得到的人体行为模型匹配,完成动作识别。本发明通过计算相邻帧中目标轮廓的变化得到轮廓能量变化直方图,根据轮廓能量变化直方图进行无监督分类,提高了准确率和鲁棒性,同时能够保证实时性。

著录项

  • 公开/公告号CN106295532A

    专利类型发明专利

  • 公开/公告日2017-01-04

    原文格式PDF

  • 申请/专利权人 河海大学;

    申请/专利号CN201610621491.0

  • 发明设计人 刘一宸;刘惠义;

    申请日2016-08-01

  • 分类号G06K9/00(20060101);G06K9/62(20060101);

  • 代理机构32224 南京纵横知识产权代理有限公司;

  • 代理人董建林

  • 地址 211100 江苏省南京市江宁区佛城西路8号

  • 入库时间 2023-06-19 01:16:00

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-09-24

    授权

    授权

  • 2017-02-01

    实质审查的生效 IPC(主分类):G06K9/00 申请日:20160801

    实质审查的生效

  • 2017-01-04

    公开

    公开

说明书

技术领域

本发明涉及一种视频图像中的人体识别方法,属于图像处理和模式识别的技术领域。

背景技术

随着获取视频设备以及宽带网络的迅猛发展,视频已经作为信息的主要载体。大多数视频都是记录的人的活动,所以不论是从安全、监控和娱乐,还是个人信息存储的角度,对视频中的人体动作进行识别的研究就具有了十分重要的学术价值和应用前景。从本质上来说,人体行为识别就是对分割出来的行人目标提取出感兴趣的特征,然后对提取出的特征数据进行分类操作。目前,常用的人体行为识别方法可以分为基于模板匹配的方法以及基于状态空间的方法。基于模板匹配的方法是将参考人体行为的序列图像模板存放在数据库中,之后将待测图像与数据库中存放的参考序列图像进行匹配,从而找得到相似度最高的参考序列图像,进而确定待测试的人体行为类别。基于模板的人体行为识别方法复杂度较低,可是没有考虑到人体行为在视频序列中的动态特性,并且对噪声干扰十分敏感。基于状态空间的方法通过描述人体运动的特征,把人体行为的基本姿态当作成一个状态,通过某种概率关系在这些状态之间推进,其中应用最多的是隐马尔可夫模型。不过人体行为识别目前还存在很多需要克服的难题,人体是非刚性目标,而且每个人做相同的动作都存在差异性,这就给行为识别的一般性带来难度,况且某些人体动作之间也存在着相似性并且动作种类繁多,这都是在设计行为识别方法时要考虑的问题。

目前,智能监控对于实时性和准确性的要求越来越高,而传统方法难以满足当今实际应用的需求。

发明内容

本发明的目的在于克服现有技术中的不足,提供了一种视频图像中的人体动作识别方法,解决了传统基于模型匹配方法中模型泛化能力低,抗噪声能力差以及基于状态空间方法中动作类别相似性的技术问题。

为解决上述技术问题,本发明提供了一种视频图像中的人体动作识别方法,其特征是,包括以下步骤:

步骤一,对各帧输入图像进行预处理得到前景区域,对前景区域进行筛选得到目标区域;

步骤二,根据目标区域获取目标轮廓;

步骤三,获得X和Y方向的轮廓能量变化直方图;

步骤四,对轮廓能量变化直方图进行归一化处理;

步骤五,训练阶段:对轮廓能量变化直方图形成的训练集进行动作分类,得到人体行为模型并赋予权值;

步骤六,在识别阶段:将待测帧的轮廓能量直方图与训练阶段得到的人体行为模型匹配,完成动作识别。

进一步的,在所述步骤一中,预处理采用背景减除法,筛选采用最小外接矩形框法。

进一步的,在所述步骤三中,获取轮廓能量变化直方图方法为:

31)获取相邻两帧图像的边缘图像Iedge和Ilast_edge,使用10×10窗口按列遍历边缘图像Iedge

32)遍历时,当窗口内存在边缘像素时,在前一帧图像Ilast_edge中的相同区域寻找与之欧式距离最小的边缘像素相匹配,并将欧式距离的大小作为该点边缘像素能量变化的值;

33)遍历完成后,将列号作为直方图的横坐标,每列对应的能量变化值作为直方图的纵坐标,得到轮廓能量变化直方图。

进一步的,在所述步骤四中,归一化处理过程为,先对直方图纵坐标进行归一化处理,使其值处于0到1之间,然后将直方图映射到一个横坐标为固定大小的直方图。

进一步的,在所述步骤五中,分类方法为:

51)利用k-means聚类方法获取聚类质心集,对行为进行大类划分,得到的各划分类别Ci,其中,1≤i≤n,n是行为类别数;

52)利用欧式距离对各Ci进行两两对比,得到基尼不纯度Gi,基尼不纯度Gi作为类别Ci的权值。

进一步的,在所述步骤六中,待测行为的在识别的具体过程为:

61)对于待测行为Sq={K1,K2,K3,.......,Kl}进行步骤一至三处理得到其轮廓能量变化直方图,判断图像Kt的直方图与各个类别的质心的欧式距离,选取欧式距离最小的类别作为图像Kt所属的类别Ci,其中,1≤t≤l;

62)将Sq属于各模板动作行为的可能性设为Aq={A1,A2,A3,......,An},其中可能性Ai是根据基尼不纯度Gi对Ci进行优化得到,Ai=Gi/Ci

63)根据各帧图像所属类别Ai,选择最大值Amax从而确定Sq的动作类型。

与现有技术相比,本发明所达到的有益效果是:本发明通过欧式距离来计算相邻帧中目标轮廓的变化得到轮廓能量变化直方图,利用k-means聚类方法对各帧图像得到的轮廓能量变化直方图进行无监督分类,通过基尼不纯度给分类结果赋予权值,提高了准确率和鲁棒性,同时能够保证实时性,解决了传统基于模型匹配方法中模型泛化能力低,抗噪声能力差以及基于状态空间方法中动作类别相似性的问题。

附图说明

图1是本发明方法的流程图。

图2是本发明实施例KTH数据库中boxing行为的图像。

图3是本发明实施例KTH数据库中handclapping行为的图像。

图4是本发明实施例KTH数据库中handwaving行为的图像。

图5是本发明实施例KTH数据库中jogging行为的图像。

图6是本发明实施例KTH数据库中running行为的图像。

图7是本发明实施例KTH数据库中walking行为的图像。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。

如图1所示,本发明的一种视频图像中的人体动作识别方法,其特征是,包括以下步骤:

步骤一,对各帧输入图像进行预处理得到前景区域,对前景区域进行筛选得到目标区域;

行为训练集S={S1,S2,S3,......,Sn}(n是行为类别数),其中,行为Si(其中,1≤i≤n),行为Si={K1,K2,K3,.......,Km}(m是图像帧数),Kj(其中,1≤j≤m)为组成行为Si的各帧图像,对一个视频中各帧输入图像采用背景减除法得到前景区域,其具体过程参见现有技术,再通过最小外接矩形框来包含前景区域,从而判断是否为人体目标区域,筛选出目标区域。

步骤二,根据目标区域获取目标轮廓;

获取目标轮廓的方法为,先对输入图像采用2D高斯滤波模板进行滤波,然后利用canny算子逐帧提取人体姿态二值轮廓,再对图像中的每个边缘像素通过Sobel算子计算其梯度的大小和方向。

步骤三,获得X和Y方向的轮廓能量变化直方图;

通过欧式距离来计算相邻帧中目标轮廓的变化得到轮廓能量变化直方图,获取轮廓能量变化直方图的具体过程为:

31)获取相邻两帧图像的边缘图像Iedge和Ilast_edge,使用10×10窗口按列遍历边缘图像Iedge

32)遍历时,当窗口内存在边缘像素时,在前一帧图像Ilast_edge中的相同区域寻找与之欧式距离最小的边缘像素相匹配,并将欧式距离的大小作为该点边缘像素能量变化的值;

33)遍历完成后,将列号作为直方图的横坐标,每列对应的能量变化值作为直方图的纵坐标,得到轮廓能量变化直方图。

步骤四,对轮廓能量变化直方图进行归一化处理;

归一化处理过程为,先对直方图纵坐标进行归一化处理,使其值处于0到1之间,然后将直方图映射到一个横坐标为固定大小的直方图。

步骤五,训练阶段:对轮廓能量变化直方图形成的训练集进行动作分类,得到人体行为模型并赋予权值;

利用k-means聚类方法对各帧图像得到的轮廓能量变化直方图进行无监督分类,分类的具体过程为:

51)在由轮廓变化能量直方图组成的训练集中随机选择k个对象,每个对象代表一个聚类的质心;其中k的值依据经验选取3≤k≤n;

52)对于其余的每个对象,根据该对象与各聚类质心之间的距离,把它分配到与之最相似的聚类中;

53)计算每个聚类的新质心;

54)重复上述51)-53)过程,直到准则函数会聚;

55)依据以上获得的聚类质心集Rn,对行为S进行大类划分,得到的各划分类为Ci

56)利用欧式距离对Ci进行两两对比,得到基尼不纯度Gi,基尼不纯度Gi作为类别Ci的权值;其中获取基尼不纯度的过程参见现有技术。

步骤六,在识别阶段:将待测帧的轮廓能量直方图与训练阶段得到的人体行为模型匹配,完成动作识别。

待测行为的在识别的具体过程为:

61)对于待测行为Sq={K1,K2,K3,.......,Kl}进行步骤一至三处理得到其轮廓能量变化直方图,判断图像Kt(其中,1≤t≤l)的直方图与各个类别的质心的欧式距离,选取欧式距离最小的类别作为图像Kt所属的类别Ci

62)将Sq属于各模板动作行为的可能性设为Aq={A1,A2,A3,......,An},其中可能性Ai是根据基尼不纯度Gi对Ci进行优化得到,Ai=Gi/Ci;Ai值越大,代表Sq属于第i动作类别的可能性越大,采用比值来优化,可以提高不同类之间的区分度;

63)根据各帧图像所属类别的可能性Ai,选择最大值Amax从而确定Sq的动作类型。

实施例一

本发明使用留一法(假设有N个样本,将每一个样本作为测试样本,其它N-1个样本作为训练样本)对方法进行交叉验证,测试样本采用KTH人体行为数据库,该数据库包括6类行为:boxing,jogging,running,boxing,handwaving,handclapping,是由25个不同的人执行的,分别在四个场景下(室外背景,镜头拉近拉远,摄像机轻微运动,室内背景),一共有599段视频。图2至图7分别为KTH数据库中boxing、handclapping、handwaving、jogging、running和walking行为的图像。现有技术中进行人体动作识别采用方法有Schindler、Ahmad、Jhuang、Rodriguez和Mikolajczyk。基于KTH人体行为数据库中6类行为图像,本实施例中将本发明方法与现有技术采用的方法分别进行测试,其中Schindler、Ahmad、Jhuang和Rodriguez方法采用拆分法,本发明方法和Mikolajczyk方法采用留一法。各方法的测试结果如表1所示,本发明的方法对于各行为的平均识别率达到93.3%,超过了其他方法的识别率,具有较高的识别率。

表1:KTH数据库中的各方法识别率

方法评价方案识别率(%)本发明方法留一法93.3Schindler拆分法90.73Ahmad拆分法87.63Jhuang拆分法91.68Rodriguez拆分法88.66Mikolajczyk留一法93.17

综上所述,本发明具有以下有益效果:通过欧式距离来计算相邻帧中目标轮廓的变化得到轮廓能量变化直方图,利用k-means聚类方法对各帧图像得到的轮廓能量变化直方图进行无监督分类,通过基尼不纯度给分类结果赋予权值的方法能够提高识别的准确率和鲁棒性,同时能够保证实时性,解决了传统基于模型匹配方法中模型泛化能力低,抗噪声能力差以及基于状态空间方法中动作类别相似性的问题。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号