首页> 中国专利> 基于方向性共同发生特征的人体行为分类识别方法及系统

基于方向性共同发生特征的人体行为分类识别方法及系统

摘要

本发明涉及一种基于方向性共同发生特征的人体行为分类识别方法及系统。该方法包括:在视频序列中检测人体目标并提取时空兴趣点;提取HOG和HOF特征,对时空兴趣点聚类;统计具有不同类别标签的时空兴趣点对出现在相同帧时的方向信息;统计方向性时空点对特征直方图,得到针对输入视频的特征描述;将该词袋模型中的直方图特征换成方向性时空点对特征直方图,针对不同类别行为进行训练,得到对应的特征描述;提取得到输入的测试视频的特征描述,与不同类别行为的特征描述模板进行最近邻匹配,匹配度最高的即为该视频对应的行为类别。本发明通过描述局部特征点对之间的方向信息有效提升了人体行为分类和识别的准确率和鲁棒性。

著录项

  • 公开/公告号CN103854016A

    专利类型发明专利

  • 公开/公告日2014-06-11

    原文格式PDF

  • 申请/专利权人 北京大学深圳研究生院;

    申请/专利号CN201410119629.8

  • 发明设计人 刘宏;刘梦源;孙倩茹;

    申请日2014-03-27

  • 分类号G06K9/00(20060101);G06K9/46(20060101);G06K9/66(20060101);

  • 代理机构北京君尚知识产权代理事务所(普通合伙);

  • 代理人余长江

  • 地址 518055 广东省深圳市南山区西丽镇深圳大学城北大校区

  • 入库时间 2024-02-20 00:07:10

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-03-01

    授权

    授权

  • 2014-07-09

    实质审查的生效 IPC(主分类):G06K9/00 申请日:20140327

    实质审查的生效

  • 2014-06-11

    公开

    公开

说明书

技术领域

本发明属于机器视觉中的目标识别和智能人机交互技术领域,具体涉及一种鲁棒的基于 方向性共同发生特征的人体行为分类识别方法。

背景技术

人体行为分析早在二十世纪三十年代就开始了。但早期较成功的研究还主要是集中于对 刚体运动的研究上。五十年代左右,对非刚体的研究逐渐兴起。尤其是人体运动分析,其在 智能视频监控、机器人控制、人机交互等方面具有广泛的应用前景,激发了世界范围内的广 大工作者的研究兴趣。

在现实场景中,人体行为识别尤其是分类具有众多难点:人体运动的执行者经常是处于 不同的年龄阶段、拥有不同的外表,同时,运动速度和时空变化程度都因人而异;不同的运 动看上去有很大的相似性,即类间相似,这是与上面提到的类内多样性相对的一种困难情况; 同时人体行为分类面临众多图像处理的经典难点问题,如人体遮挡,室外场景中存在阴影, 光照变化以及人群拥挤等。面对这些困难,如何实现鲁棒的人体行为分类,从而应用于真实 场景中的智能监控,具有重要的研究意义。

人体行为描述方法分为两大类:全局特征和局部特征。全局特征即将人体行为视为一个 整体提取得到运动描述,是一种自顶向下的过程。全局特征描述是一种很强的特征,能编码 运动的大部分信息。然而,全局特征对视角、遮挡、噪声都极其敏感,并且,提取全局特征 的前提是能很好的分割运动前景。这对复杂场景下的人体行为描述要求的预处理过程极为苛 刻。考虑到全局特征的不足,针对复杂场景下的人体行为描述,局部特征被提出,作为全局 特征的补充。局部特征的提取是一种自底向上的过程:首先检测时空兴趣点,然后在这些兴 趣点周围提取局部纹理方块,最后将对这些方块的描述结合起来组成最终描述子。由于词袋 模型(bag of visual words model)参见J.C.Niebles,H.Wang,and L.Fei-Fei,“Unsupervised  learning of human action categories using spatialtemporal words,”in BMVC,vol.3,pp.1249-1258, 2006。)的提出,使得利用局部特征进行人体行为分类的框架被广泛采用。局部特征与全局特 征不同,其对噪声和部分遮挡的敏感性较低,并且局部特征的提取不需要前景分割和跟踪的 过程,因此能很好的适用于复杂场景中的人体行为分析。由于局部特征点忽略了点跟点之间 的全局约束关系,因此需要更高一层的空间关系描述来提升现有的词袋模型分类效果。

发明内容

本发明针对上述问题,提出一种基于方向性共同发生特征的人体行为分类识别方法,使 用局部特征点并通过描述特征点之间的空间结构关系来建立人体行为模型,最终实现人体行 为分类和识别。本发明通过描述局部特征点对之间的方向信息有效提升了传统方法的准确率 和鲁棒性。

本发明采用的技术方案如下:

一种基于方向性共同发生特征的人体行为分类识别方法,其步骤如下:

1)在视频序列中检测人体目标;

2)对包含人体目标的时空域提取时空兴趣点;

3)提取时空兴趣点的HOG和HOF特征,并将时空兴趣点聚类成若干类别;

4)对于具有不同类别标签的时空兴趣点对,统计其出现在相同帧时的方向信息;

5)利用所述方向信息统计方向性时空点对特征直方图,得到针对输入视频的特征描述;

6)利用词袋模型将局部特征的个数直方图分布作为整体的特征表达,将该词袋模型中的 直方图特征换成由步骤1)~5)得到的方向性时空点对特征直方图,针对不同类别行为进行 训练,得到不同行为类别对应的特征描述;

7)当输入测试视频时,根据步骤1)~5)提取得到该视频的特征描述,然后与步骤6) 得到的不同类别行为的特征描述模板进行最近邻匹配,匹配度最高的即为该视频对应的行为 类别。

更进一步,所述人体行为分类是针对视频中能够检测出的人体行为进行的,提取的时空 兴趣点指的是时空域中灰度变换剧烈的点。

更进一步,时空兴趣点对的方向性指的是两点在空间中的上下或左右关系,并且优先考 虑点对间的上下关系,当两点空间中的垂直距离小于一定阈值时,考虑左右关系;当两点空 间中的水平距离也小于一定阈值时,在统计方向性时空点对特征直方图时舍弃该点对。

更进一步,使用均值聚类或其他聚类方法对时空兴趣点进行聚类,时空兴趣点的聚类个 数优选为400~1000。

本发明还提出一种采用上述方法的基于方向性共同发生特征的人体行为分类识别系统, 其包括:

视频输入端,包括可获取视频序列的摄像设备;

特征提取输出端,提取视频中人体行为对应的方向性时空点对特征描述;

离线训练分类器,在视频输入端获取的视频序列中检测人体行为目标,利用特征提取输 出端输出的人体行为的特征描述,针对每个行为类别,将对应的多个视频的直方图特征取平 均,并将平均的直方图特征作为该行为类别对应的特征;

匹配输出模块,对于输入的测试视频,利用离线训练分类器得到视频中人体行为对应的特 征,并将其与多个行为类别对应的特征分类匹配,将匹配度最高的作为测试视频对应的行为 类别,并输出该类别标签。

更进一步,所述视频输入端获取的视频序列为RGB图像序列。

本发明实现了鲁棒的基于方向性共同发生特征的人体行为分类识别方法和系统,即利用 局部时空兴趣点对之间上下或者左右的相对方位关系编码局部时空兴趣点的空间结构特征, 从而增加了不同行为类别之间的区分度。本发明属于对利用词袋模型和局部特征点做行为分 类的框架的拓展。本发明的效果图如图3所示,可以看出与现有技术相比,本发明的人体行 为分类效果最好。

附图说明

图1是本发明的基于方向性共同发生特征的人体行为分类识别方法的步骤流程图。

图2是本发明的视频描述子(即方向性时空点对特征直方图)提取流程图;

图3是本发明使用的数据库部分样例;

图4~图6是本发明的人体行为分类效果图;其中图3采用原始词袋模型和直方图特征, 图4采用词袋模型和共同发生特征,图5采用词袋模型和本发明提出的方向性点对直方图特 征。

具体实施方式

下面通过具体实施例和附图,对本发明做进一步说明。

本发明的基于方向性共同发生特征的人体行为识别方法,使用局部特征点并通过描述特 征点之间的空间结构关系来建立人体行为模型,最终实现人体行为分类和识别。局部特征点 的提取和描述参照"Evaluation of local spatio-temporal features for action recognition"(2009),H. Wang,M.M.Ullah,A.I.Laptev and C.Schmid;in Proc.BMVC'09。

图1所示为本发明方法的步骤流程图,包括:1)在视频序列中检测人体目标;2)对包 含人体目标的时空域提取时空兴趣点;3)提取时空兴趣点的HOG和HOF特征,并将时空 兴趣点聚类成若干类别;4)对于具有不同类别标签的时空兴趣点对,统计其出现在相同帧时 的方向信息;5)利用所述方向信息统计方向性时空点对特征直方图,得到针对输入视频的特 征描述;6)利用词袋模型将局部特征的个数直方图分布作为整体的特征表达,将该词袋模型 中的直方图特征换成由步骤1)~5)得到的方向性时空点对特征直方图,针对不同类别行为 进行训练,得到不同行为类别对应的特征描述;7)当输入测试视频时,根据步骤1)~5)提 取得到该视频的特征描述,然后与步骤6)得到的不同类别行为的特征描述模板进行最近邻 匹配,匹配度最高的即为该视频对应的行为类别。

下面结合图2说明本发明的人体行为的视频对应的方向性点对直方图特征的提取步骤:

1)时空兴趣点的提取和描述

本发明使用文献“C.Schuldt,I.Laptev,and B.Caputo,“Recognizing human actions:a local  svm approach,”in ICPR,pp.32-36,2004”中使用的时空兴趣点检测器和描述子。时空兴趣点 检测器的参数与上述文献中的参数保持一致。时空兴趣点描述子采用维数为90维的HOG特征 和72维多HOF特征,两种特征串联起来组成162维的描述子。图2中A、B、C表示时空兴趣点。

2)时空兴趣点的聚类

本发明采用K均值聚类方法,针对实验中的不同数据库设定不同的聚类个数。实验采用 UT-Interaction和Rochester两个数据库,分别由文献“M.S.Ryoo,Human activity prediction: Early recognition of ongoing activities from streaming videos,in ICCV,pp.1036-1043,2011”和“R. Messing,C.Pal,and H.Kautz,Activity recognition using the velocity histories of tracked keypoints, in ICCV,pp.104-111,2009”提出。对于UT-Interaction数据库,聚类个数设为450;对Rochester 数据库,聚类个数设为500。

3)方向性点对直方图特征提取

本发明关注具有不同类别且出现在相同帧上的时空兴趣点对之间的关系。假设变量 S={S1,...,Sk,...,SK}包含一个视频中提取到的所有时空兴趣点;Sk包含所有标签为k的时 空兴趣点,其中k属于1到聚类个数K之间;代表标签为i的时空兴趣点; 且分别代表该点的横纵坐标和所在的帧数。方向性点对直方图特征提取的主要步 骤如下:

上述步骤用自然语言描述如下:

a)对具有不同类别标签的共发生点对,由公式(1)计算得到方向性点对特征,并由公式 (2)计算得到阈值T。

b)由公式(3)得到整个输入视频中方向性共同发生特征的统计量N。

c)由公式(4)和(5)得到基于统计量N的概率分布P。

d)由公式(6)得到最终特征描述H,H由P级联组成。

其中公式(1)~(6)如下所示:

T=Σi=1KΣj=1KΣptiSi,ptjSi|xpti-xptj|Σi=1KΣj=1KΣptiSi,ptjSj1---(2)

N(i,j)=ΣptiSi,ptjSin(pti,ptj)---(3)

P(DPFist|DPFs)=Σj=1KN(i,j)Σj=1K{N(i)·N(j)}---(4)

P(DPFien|DPFs)=Σj=1KN(j,i)Σj=1K{N(i)·N(j)}---(5)

H={{P(DPFist|DPFs)}i=1K,{P(DPFien|DPFs)}i=1K}---(6)

其中,代表标签为i的时空兴趣点,且分别代表该点的横 纵坐标和所在的帧数;T为阈值,表征空间点对的平均距离;K为聚类个数;N(i)和N(j)分 别代表类别为i和j的时空兴趣点个数;n(pti,ptj)代表由类别i指向类别j的共同发生特征个数; N(i,j)代表方向性共同发生特征的统计量;代表方向性共同发生特征中以标 签i作为起点的概率;代表方向性共同发生特征中以标签i作为终点的概率; H为最终表达视频中人体行为的特征向量。

图2中步骤3得到的直方图中,横坐标DPF表示方向性点对直方图特征,probability表示概 率,纵坐标N表示特征个数,H表示概率值,AB、AC等表示由A指向B或由A指向C的方向性 点对特征,Ast、Bst、Cst表示在所有方向性点对特征中分别由A、B、C作为起点的特征,Aen、 Ben、Cen表示分别由A、B、C作为终点的特征。

图3所示为实验所用数据库Rochester和UT-Interaction,第1-2行为Rochester数据库行为实 例,第3-4行为UT-Interaction中两个场景下的行为实例。其中Rochester包含10种人体行为动作, 分别为:接电话(answer a phone),切香蕉(chop a banana),打电话(dial a phone),喝水(drink  water),吃香蕉(eat a banana),吃零食(eat snacks),查询电话号码(look up a phone number  in a phone book),剥香蕉(peel a banana),用银器进餐(eat food with silverware)和在白板上 写字(write on a white board),由5个人重复表演3次得到,共150段视频。UT-Interaction包含6 种人体行为动作,分别为:拥抱(hug),脚踢(kick),指向(point),击打(punch),推搡 (push)和握手(shakehands),由表演者在两种场景下分别重复10次得到,共120段视频。

图4~图6所示为分类结果,其中参数K1、K2、avgRate分别为词袋模型所用聚类个数,时 空方向点对特征所用聚类个数和运行10次的平均识别率。离线训练分类模块采用留一交叉验 证,使用支持向量机作为分类器,比较测试样本与训练得到的模板的匹配度。支持向量机采 用切比雪夫核。图4~图6中第一列(左边的图(a))代表在UT-interaction中场景一数据库(60 段视频)上的分类结果,第二列(右边的图(b))代表在Rochester上的分类结果。图4采用原 始词袋模型和直方图特征,图5采用词袋模型和共同发生特征,共同发生特征参考文献Q.Sun  and H.Liu,“Action disambiguation analysis using normalized google-like distance correlogram,” in ACCV,2012,Part III,LNCS7726,pp.425-437,2013。图6采用词袋模型和本发明提出的方向 性点对直方图特征。可以看出,本发明提出的方法分类正确率最高。

尽管为说明目的公开了本发明的具体实施例和附图,其目的在于帮助理解本发明的内容 并据以实施,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和 范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图 所公开的内容,本发明的保护范围以权利要求书界定的范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号