首页> 中国专利> 基于骨架信息的时不变及视不变的人体行为识别方法

基于骨架信息的时不变及视不变的人体行为识别方法

摘要

本发明公开一种基于骨架信息的时不变及视不变的人体行为识别方法,先提取相同视频长度的人体行为视频段;从视频的每一帧中提取表达人体行为的二十个关节信息;根据视频每一帧中二十个关节的信息计算处理得出以两髋中心为基准的特征向量HCBV,角度特征向量AV及相对位置特征向量PRPV;采用支持向量机分类器分别对以两髋中心为基准的特征向量HCBV进行分类识别,对角度特征向量AV进行分类识别,对相对位置特征向量PRPV行分类识别,得出各个行为类别的识别概率;最后对以两髋中心为基准的特征向量HCBV、角度特征向量AV及相对位置特征向量PRPV得出的各个行为类别的识别概率进行加权求和融合得到行为的识别结果。本发明识别方法简单直观,识别正确率高,识别时间短。

著录项

  • 公开/公告号CN105138995A

    专利类型发明专利

  • 公开/公告日2015-12-09

    原文格式PDF

  • 申请/专利权人 重庆理工大学;

    申请/专利号CN201510551025.5

  • 申请日2015-09-01

  • 分类号G06K9/00(20060101);

  • 代理机构50210 重庆志合专利事务所;

  • 代理人胡荣珲;李宁

  • 地址 400054 重庆市巴南区红光大道69号

  • 入库时间 2023-12-18 12:45:22

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-06-25

    授权

    授权

  • 2016-01-06

    实质审查的生效 IPC(主分类):G06K9/00 申请日:20150901

    实质审查的生效

  • 2015-12-09

    公开

    公开

说明书

技术领域

本发明涉及行为识别方法,具体涉及一种基于骨架信息的时不变 及视不变的人体行为识别方法。

背景技术

人体行为识别在视频监控,人机交互,视频提取等很多领域都扮演 着十分重要的角色。人体行为识别可以适用到犯罪侦查、病人照护、 养老院等领域。在过去的一段时间,机器视觉类任务大多数基于人工 设计的特征,如尺度不变特征变换(SIFT),方向梯度直方图(HOG),运动 历史图像(MHI)等。然而很多经典的视觉识别方法仅仅是通过拼凑现 有的一些成功方法而实现。有学者认为,行为识别的研究在近些年的 研究进展非常缓慢。深度相机的出现使得研究者可以重新考虑图像处 理和机器视觉的一些问题。与RGB相机相比拍摄颜色和纹理信息不 同,深度相机能记录人体的深度信息,从这些信息中能够获得人体的几 何信息和骨架信息。而且,深度相机对光线的变化不敏感,因而在视频 分割、目标识别、行为识别等视觉任务中比传统的RGB视频具有更 好的可分辨性。

现在人们对行为识别的研究专注于寻找人体行为类别和骨架信息 之间的潜在关系,如:基于李群和3D骨架点的人体行为识别“Human actionrecognitionbyrepresenting3Dskeletonsaspointsinaliegroup,” 见[1],该行为识别方法计算复杂度高,花费时间长,提取单个视频 所有特征的平均时间为6.53秒,不便于推广使用。如:一种基于3D 关节直方图的视不变人体行为识别方法“Viewinvarianthumanaction recognitionusinghistogramsof3Djoints,”见[2],该识别方法丢失了关 节前后帧间的上下文信息,识别正确率低。如:3D人体行为识别中 的时空姿势表示“Space-timeposerepresentationfor3dhumanaction recognition,”见[3],该行为识别方法仅仅研究姿势,即以图像为研究 基准,通过图像进行识别,不仅对视频拍摄设备要求高,而且使获得 的信息识别率低。又如:自然人机交互中的行为识别“Activity recognitionfornaturalhumanrobotinteraction,”见[4],该行为识别研 究人机交互,识别效率低。因此通过骨架关节信息建模身体不同部位 的3D几何关系可以表示人体的一个姿势,但是现有的识别效率低, 时间开销更大。

文献[1]Vemulapalli,F.Arrate,andR.Chellappa,“Humanaction recognitionbyrepresenting3Dskeletonsaspointsinaliegroup,”in ComputerVisionandPatternRecognition(CVPR),2014IEEE Conferenceon,2014,pp.588-595。

文献[2]L.Xia,C.-C.Chen,andJ.K.Aggarwal,“Viewinvariant humanactionrecognitionusinghistogramsof3Djoints,”inComputer VisionandPatternRecognitionWorkshops(CVPRW),2012IEEE ComputerSocietyConferenceon,2012,pp.20-27。

文献[3]M.Devanne,H.Wannous,S.Berretti,P.Pala,M.Daoudi, andA.DelBimbo.“Space-timeposerepresentationfor3dhumanaction recognition,”inNewTrendsinImageAnalysisandProcessing-ICIAP 2013.Springer,2013,pp.456-464。

文献[4]A.Chrungoo,S.Manimaran,andB.Ravindran,“Activity recognitionfornaturalhumanrobotinteraction,”inSocialRobotics. Springer,2014,pp.84-94。

发明内容

本发明的目的是为了克服现有技术的不足,提供一种基于骨架信 息的时不变及视不变的人体行为识别方法,该识别方法简单直观,识 别正确率高,且识别时间短。

本发明的目的可以通过以下技术方案实现:

一种基于骨架信息的时不变及视不变的人体行为识别方法,其特 征在于:包括以下步骤:

1)提取人体行为视频段,并将不同长度的视频段规范化到一个 固定的视频长度;

2)根据所得的固定长度的视频提取骨架信息,即从视频的每一 帧中提取表达人体行为的二十个关节信息;

3)根据每一帧中提取表达人体行为的二十个关节信息提取三个 特征向量,即从视频每一帧中二十个关节的信息计算处理得出以两髋 中心为基准的特征向量HCBV,角度特征向量AV及相对位置特征向量 PRPV,所述以两髋中心为基准的特征向量HCBV,以每一帧两髋中心 关节为坐标原点,计算该帧其他关节到原点的距离d,仰角φ和方位角 θ三个参数,将该视频所有帧中除原点以外的其他关节到原点的距离 d,仰角φ和方位角θ三个参数串接即为HCBV;所述角度特征向量AV 是将该视频所有帧中两相邻关节之间的夹角串接而成的向量;所述相 对位置特征向量PRPV是将该视频所有帧中某一关节相对于其他关节 之间的相对位置串接而成的向量;

4)对得到的三个特征向量分别进行分类识别:采用支持向量机 分类器分别对以两髋中心为基准的特征向量HCBV进行分类识别,对 角度特征向量AV进行分类识别,对相对位置特征向量PRPV行分类识 别,得出各个行为类别的识别概率;

5)对各行为类别的识别概率进行融合:对以两髋中心为基准的特征 向量HCBV、角度特征向量AV及相对位置特征向量PRPV得出的各个 行为类别的识别概率进行加权求和融合得到行为的识别结果,其中以 两髋中心为基准的特征向量HCBV的权值为0.4,角度特征向量AV的 权值为0.3,相对位置特征向量PRPV的权值为0.3。

所述二十个关节分别是两髋中心、脊、两肩中心、头、左肩、左 肘、左腕、左手、右肩、右肘、右腕、右手、左髋、左膝、左踝、左 脚、右髋、右膝、右踝、右脚。

所述提取人体行为视频段,先要对各视频长度进行预处理,采用 视频帧规则化插值法将不同视频长度的视频段规范化到一个相同的 视频长度。

所述以两髋中心为基准的特征向量HCBV的计算方法是从视频的 每一帧中提取以两髋中心关节为坐标原点,其他关节到原点的距离d, 仰角φ和方位角θ三个参数,然后将该视频中所有帧的其他关节到原 点的距离d,仰角φ和方位角θ进行向量化处理形成基准特征向量; 若所述视频中含有tNum帧,则该特征向量的维度为3×19×tNum。

所述以两髋中心为基准的特征向量HCBV中其他关节到两髋中 心关节的距离d均乘以高度因子λ规范化为D,参见公式(1):

D=λ×d(1)

公式中,高度因子λ等于两髋中心关节和脊关节之间距离的倒 数。

所述角度特征向量AV的计算方法是从视频的每一帧中提取各相 邻关节之间的夹角,然后将该视频所有帧中的相邻关节间的夹角进行 向量化处理形成角度特征向量;若所述视频中含有tNum帧,则该角 度特征向量AV的维度为19×tNum。

所述相对位置特征向量PRPV的计算方法是从视频的每一帧中提 取某一关节相对于其他关节之间的相对位置,然后将该视频所有帧中 所有关节间相对位置进行向量化处理形成相对位置特征向量;若该视 频中含有tNum帧,则该特征向量的维度为19×20×tNum。

所述相对位置特征向量PRPV的计算方法中,对于第t帧中的某 一个关节i,通过计算该关节i和其他关节j之间的距离来提取相对位 置参数ptij,参见公式(2):

ptij=pti-ptj---(2)

其中为该t帧中关节i的坐标,t帧中关节i 的三维相对位置属性,参见公式(3):

pti={ptij|ij}---(3)

因此相对位置特征向量PRPV,参见公式(4);

PRPV={pti|i=1,..,20;t=1,..,tNum}---(4).

在三个特征向量进行分类识别前采用min-max方法分别将视频 中所有帧的x,y,z坐标值规范化到[0,1]范围。

本发明的有益效果:本行为识别方法包括:首先,对采集的视频 长度进行预处理,将不同视频长度的视频段规范化到一个固定的视频 长度,不但使得不同视频中所提取出的特征向量具有相同的维度,而 且能够保持视频中的主要运动模式信息,从而保证了本方法时间不变 的特点。其次,从视频的每一帧中提取人体行为二十个关节的信息, 这二十个关节包含了描述人体行为的主要关节,因此已足够表达人体 行为特征。根据每一帧中二十个关节的信息计算处理得出以两髋中心 为基准的特征向量HCBV,角度特征向量AV及相对位置特征向量 PRPV三个特征向量,从骨骼信息中提取角度信息和相对位置形成3 种不同的特征向量HCBV,AV和PRPV,HVBC综合了每个关节的角 度和方位信息,AV考虑所有关节间角度信息,PRPV考虑了所有关 节相对位置信息,因而具有视不可变性的特点。然后,采用支持向量 机分类器分别对三个特征向量进行分类识别,得出各个行为类别的识 别概率。最后,对各行为类别的识别概率进行加权求和融合得到行为 的识别结果。该方法计算简便,花费时间短。本发明方法能够在 UTKinect-Action3D数据集上获得与当前方法一致的识别效果,本发 明利用人体的骨架信息来提取视频中的特征,因而方法更简单直观, 识别时间短,识别准确率高,提高了实时性,并且该方法具有时间不 变和视角不变性的特点,使得本发明方法在应用于其他数据集时具有 更强的鲁棒性。

所述二十个关节分别是两髋中心、脊、两肩中心、头、左肩、左 肘、左腕、左手、右肩、右肘、右腕、右手、左髋、左膝、左踝、左 脚、右髋、右膝、右踝、右脚。这二十个关节是表达人体行为的主要 关节,对人体行为的表达力最强、更清楚,从而使识别效率更高。

采用基准特征向量的支持向量机分类器对以两髋中心为基准的 特征向量HCBV进行分类,采用角度特征向量的支持向量机分类器 对角度特征向量AV进行分类,采用相对位置特征向量的支持向量机 分类器对相对位置特征向量PRPV进行分类。采用这三个支持向量机 分类器分别进行分类,即形成先分类再融合,这种方法相对于先合并 向量再分类的效果更好。

所述以两髋中心为基准的特征向量HCBV中其他关节到两髋中 心关节的距离d均乘以高度因子λ规范化为D,降低了不同高度被试 者对特征向量的影响。

在三个特征向量进行分类识别前采用min-max方法分别将视频 中所有帧的x,y,z坐标值规范化到[0,1]范围,使数据标准化,提高了 识别正确率。

附图说明

图1是本发明以两髋中心为基准的特征向量的示意图;

图2是本发明角度特征向量的示意图。

具体实施例

下面结合附图对本发明作进一步说明。

参见图1至图2所示,一种基于骨架信息的时不变及视不变的人 体行为识别方法,

采用深度相机采集深度视频,深度相机相对于传统的RGB视频, 深度视频不会随着光线的变化而变化,因此在视频分割,行为识别等视 觉任务中比RGB视频具有更好的区分性。深度视频的速度是30帧/ 秒。

步骤1,提取人体行为视频段,并将不同长度的视频段规范化到 一个固定的视频长度;从拍摄的深度视频中提取人体行为视频,先要 对视频长度进行预处理,采用视频帧规则化插值法将不同视频长度的 视频段规范化到一个相同(固定)的视频长度;这里的视频长度是指 视频段包含的帧数,采用视频帧规则化插值法将不同帧数的视频段调 整为相同帧数的统一视频段,该统一视频段的帧数为所有视频段帧数 的中间值,视频帧规则化插值法是通过视频帧插值技术实现视频长度 的规则化方法。视频段的长短无要求,只要该视频段中包含完整的动 作行为就可以了,一般至少二十帧。例如,将时间长度为10秒的视 频段调整为时间长度为15秒的视频段,则调整后的视频第i帧来自 于原视频的第[10*i/15]帧,其中[]为上取整。一般情况下同一个数据 集中的视频长度不能相差太大。将不同帧数的视频段调整为帧数相同 的视频段,不但使得不同视频中所提取出的特征向量具有相同的维度, 而且能够保持视频中的主要运动模式信息,从而保证了本方法时间不 变性的特点。该步骤是在人体行为识别前的重要处理步骤。

步骤2,根据所得的固定长度的视频提取骨架信息,即从提取视 频段的每一帧中提取表达人体行为的二十个关节信息,二十个关节信 息即每个关节的x,y,z坐标信息,所述二十个关节分别是两髋中心、 脊、两肩中心、头、左肩、左肘、左腕、左手、右肩、右肘、右腕、 右手、左髋、左膝、左踝、左脚、右髋、右膝、右踝、右脚;本发明 只需要提取这二十个关系的骨架信息,相对于现有方法利用帧中的所 有像素点提取特征,本文的方法仅利用人体的骨架信息来提取深度视 频中的特征,因而方法更简单,更高效,实时性更高。

步骤3:根据每一帧中提取表达人体行为的二十个关节信息提取 三个特征向量,即从视频段的每一帧中二十个关节的信息计算处理得 出以两髋中心为基准的特征向量HCBV(HipCenterBasedVector) 角度特征向量AV(AngleVector)及相对位置特征向量PRPV(Pairwise RelativePositionVector);

所述以两髋中心为基准的特征向量HCBV的计算方法是从视频 的每一帧中提取以两髋中心关节为坐标原点,计算该帧其他关节到 原点的距离d,仰角φ和方位角θ三个参数,根据各关节点的三维坐标 计算得出所有帧的其他关节到原点的距离d,仰角φ和方位角θ三个 参数,然后将该视频中所有除原点以外的其他关节到原点的距离d, 仰角φ和方位角θ进行向量化处理形成基准特征向量。相对其他关节 而言,两髋中心关节移动幅度最小,所以以两髋中心为基准的特征向量 HCBV计算方法以两髋中心关节作为3D直角坐标的原点,对于深度 视频的每一帧中除两髋中心关节之外的其他关节,可以计算以下三个 参数,即该关节到原点的距离d,仰角φ和方位角θ。所述以两髋中心 为基准的特征向量HCBV中其他关节到两髋中心关节的距离d均乘 以高度因子λ规范化为D,参见公式(1):

D=λ×d(1)

公式中,高度因子λ等于两髋中心关节和脊关节之间距离的倒 数,将规范化后的其他关节到两髋中心关节的距离D进行构成特征 向量,降低了不同高度被者试对特征向量的影响。

每帧视频中共有3×19个参数,若视频中含有tNum帧,则该特征 向量的维度为3×19×tNum。如Di_j为第i帧关节j的距离D,θi_j 为第i帧关节j的方位角,φi_j为第i帧关节j的仰角,得出:D1_1, φ1_1θ1_1、D1_2φ1_2θ1_2、D1_3φ1_3θ1_3、....... D1_19φ1_19θ1_19,D2_1θ2_1、D2_2θ2_2、 D2_3θ2_3、......D2_19φ2_19θ2_19,D20_1θ20_1、 D20_2θ20__2、D20_3θ20_3......。把某一帧中每个关节 到两髋中心关节的距离D,仰角φ和方位角θ进行连接,然后将所有 帧的这三个参数进行连接(向量化处理),得到一个以两髋中心为基 准的特征向量HCBV。

所述角度特征向量AV是将该视频所有帧中两相邻关节之间的夹 角串接而成的向量,先确定骨架结构中所有相邻关节的夹角,相邻关 节的夹角根据各相邻关节的三维坐标计算得出,角度特征向量AV旨 在提取人体的全局弯曲度信息。角度特征向量AV的计算方法是从视 频的每一帧中提取各相邻关节之间的夹角,然后将该视频所有帧中的 相邻关节间的夹角进行向量化处理形成角度特征向量;每帧视频中均 有19个夹角参数,若视频中含有tNum帧,则该角度特征向量AV的 维度为19×tNum。

所述相对位置特征向量PRPV是将该视频所有帧中某一关节相对 于其他关节之间的相对位置串接而成的向量,先提取某一关节相对于 其他所有关节间的相对位置信息,各关节的相对位置信息根据各相邻 关节的三维坐标计算得出,所述相对位置特征向量PRPV的计算方法 是从视频的每一帧中提取某一关节相对于其他关节之间的相对位置, 然后将该视频所有帧中所有关节间相对位置进行向量化处理形成相 对位置特征向量。

所述相对位置特征向量PRPV的计算方法中,对于第t帧中的某 一个关节i,通过计算该关节i和其他关节j之间的距离来提取相对位 置参数ptij(保持原来的相对位置特征向量),参见公式(2):

ptij=pti-ptj---(2)

其中为该t帧中关节i的坐标,t帧中关节i的 三维相对位置属性,参见公式(3):

pti={ptij|ij}---(3)

人体骨架的二十个关节,每帧视频中均有19×20个夹角参数, 若该视频中含有tNum帧,则该特征向量的维度为19×20×tNum, 因此相对位置特征向量PRPV,参见公式(4);

PRPV={pti|i=1,..,20;t=1,..,tNum}---(4).

由于人与人的高度不一样,所以关节间的距离也会有差别,为了消 除这种影响,对所有关节间的距离进行了规范化,其中入等于两髋之 间关节和脊关节间距离的倒数,因此对两个关节间的相对位置进行了 规范化处理见公式(5):

P=ptij*λ(5)

在三个特征向量进行分类识别前均采用min-max方法将分别将视 频中所有帧的x,y,z坐标值规范化到[0,1]范围。

步骤4,对得到的三个特征向量分别进行分类识别:采用三个支 持向量机分类器(SVM)分别对以两髋中心为基准的特征向量HCBV进 行分类识别,对角度特征向量AV进行分类识别,对相对位置特征向 量PRPV行分类识别,得出各个行为类别的识别概率;本实施中所述 支持向量机分类器采用LIBLINEAR分类器。支持向量机分类器SVM的 分类方法直接使用的参考文献给出的源代码及方法,分类类别就是该 数据集所含有的人体行为的类别,该算法对具有任何类别的数据集都 可以适用。通过每个特征向量都能够得到一个该视频属于某个行为的 概率,因此综合三个特征向量提高了识别效率。

步骤5,对各行为类别的识别概率进行融合:对以两髋中心为基 准的特征向量HCBV、角度特征向量AV及相对位置特征向量PRPV得 出的各个行为类别的识别概率进行加权求和融合得到行为的识别结 果,其中以两髋中心为基准的特征向量HCBV的权值为0.4,角度特 征向量AV的权值为0.3,相对位置特征向量PRPV的权值为0.3。通 过将同一个视频的三个特征向量的分类结果综合起来,综合其实就是 把三个特征向量在各行为上的预测概率进行加权求和,这样就可以得 到求和后的每个行为的预测概率,概率大的就是识别出的行为,使得 该分类结果的融合非常简单,提高了计算效率。这里的以两髋中心为 基准的特征向量HCBV的权值为0.4,角度特征向量AV的权值为0.3, 相对位置特征向量PRPV的权值为0.3,各特征向量的权值是根据多 次实验及多年的经验得到的。

本发明的实验结果及分析

A.数据集和预处理

实验主机是一台主频为2.50GHz的Intel(R)Core(TM)i5-4200M4处理 器CPU,内存为4G,本发明方法在UTKinect-Action3D数据集上进行了 实验评估。UTKinect-Action3D数据集是寻找人体行为类别和骨架信 息之间的潜在关系的数据集,该数据集使用静止Kinect相机采集而 成,由十个不同的被试者完成十种不同的行为动作见表I,每位被试者 每个行为动作拍摄二次。去除一个无效视频,整个数据集总共含有一 百九十九个有效视频,每个视频中均提供了二十个关节的三维坐标。 为实验的方便,本文的实验中使用了两百个视频序列,即将缺失的第 十位被试者扔(carry)动作的第二次拍摄使用原始数据中1242帧到 1300帧的视频进行补充,原始数据是指最早没有被分段的原始长视 频。UTKinect-Action3D数据集包含了从多个不同的角度拍摄视频序 列并且具有很高的类内差异性,因此十分具有挑战性。所述类内差异 性是同一行为类别间也有很大的差异,比如不同人的挥手动作有很大 差别。在实验前,我们对每个视频进行了简单的预处理,第一个处理是 使用视频帧规则化插值法将数据集中的所有视频长度规范化到统一 的视频长度,该视频长度即为所有视频长度的中间值。第二个处理是 使用min-max,方法将分别将所有视频的x,y,z坐标值规范化到[0,1] 范围。

B.性能评价

对于在UTKinect-Action3D数据集上的实验评估,本文使用交叉 被试者的实验设置,即五个被试者的行为动作用于训练,用 {1,3,5,7,9}表示他们的行为序列,另外五个被试者的行为动作用于 测试,用{2,4,6,8,10}表示他们的行为序列,表I给出了每类行为的 识别准确性。从表I中可以看出,各行为的平均识别准确率为95%。 UTKinect-Action3D数据集是个从多视角拍摄的并富有挑战性的数据 集,每个视频的长度也完全不一样。高识别率的实验结果表明了本文 方法的视角不变性和时间不变性的特点。从表I中可看出,扔 (carry),投掷(throw)和推(push)动作的识别率相对较低。其 中被试者9和被试者10的扔(carry)动作分别被错误的识别为动作 throw和push,是因为这两个动作含有的视频帧数太少而导致所提供 的信息不足以用于分类识别,因此所选的视频帧数要基本包含完整动 作行为,至少二十帧。

表IUTKINECT-Action3D数据集上各行为动作的识别率(平均 值:95%)。

行为 walk sit down stand up pick up carry Accuracy 100 100 100 100 80 行为 throw push pull wavc hand clap hand Accuracy 80 90 100 100 100

本文方法和现有行为识别方法在UTKINECT-Action3D数据集上 识别效果进行了比较见表II。本文提出的方法(Proposed)获得了 95%的分类性能,其他行为识别方法的识别正确率均低于本发明方法。 与此同时,本发明方法提取单个视频所有特征的平均时间为0.18秒, 基于李群和3D骨架点的人体行为识别的提取单个视频所有特征的平 均时间为6.53秒,远远低于基于李群和3D骨架点的人体行为识别中 所需要,因此本文的方法更简单直观,在时间开销上也更高效。

表II本文方法和已有方法在UTKINECT-Action3D数据集上识 别效果的比较

方法(Method) 准确率(Accuracy) Xia et al.(2012)文献[2] 90.92% Devanne et al.(2013)文献[3] 91.5% Chrungoo et al.(2014)文献[4] 91.96% Proposed 95%

本发明提出了一种基于深度视频的骨架信息直观并且简单有效 的人体行为识别方法,该方法通过提取深度视频中关节间的角度信息 和相对位置信息形成3种不同的特征向量HCBV,AV和PRPV。通过融 合HCBV,AV,PRPV三个特征向量的分类结果,本文的方法在 UTKinect-Action3D数据集获得了很好的识别结果,本文所提出方法 更简单直观,时间开销更小。与此同时,本方法所提取的特征具有时间 不变性和视角不变性的特点,使得本方法在应用于其他数据集时具有 更强的鲁棒性。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号