首页> 中国专利> 基于深度图像序列的实时人体动作识别方法及装置

基于深度图像序列的实时人体动作识别方法及装置

摘要

本发明涉及模式识别技术领域,具体涉及一种基于深度图像序列的实时人体动作识别方法及装置。该方法包括步骤:S1.从目标深度图像序列中提取目标动作剪影,从训练深度图像集中提取训练动作剪影;S2.对训练动作剪影进行姿势聚类,并对聚类结果进行动作标定;S3.计算目标动作剪影以及训练动作剪影的姿势特征;S4.结合训练动作剪影的姿势特征进行基于高斯混合模型的姿势训练并构建姿势模型;S5.计算聚类结果的每个动作中各姿势间的转移概率并构建动作图模型;S6.根据所述目标动作剪影的姿势特征、姿势模型以及动作图模型对目标深度图像序列进行动作识别。本发明的方法提升了动作识别的效率及动作识别的准确性和鲁棒性。

著录项

  • 公开/公告号CN103246884A

    专利类型发明专利

  • 公开/公告日2013-08-14

    原文格式PDF

  • 申请/专利权人 清华大学;

    申请/专利号CN201310192961.2

  • 发明设计人 王贵锦;李艳丽;何礼;林行刚;

    申请日2013-05-22

  • 分类号G06K9/00;

  • 代理机构北京路浩知识产权代理有限公司;

  • 代理人王莹

  • 地址 100084 北京市海淀区清华园100084-82信箱

  • 入库时间 2024-02-19 20:03:36

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-08-10

    授权

    授权

  • 2013-09-11

    实质审查的生效 IPC(主分类):G06K9/00 申请日:20130522

    实质审查的生效

  • 2013-08-14

    公开

    公开

说明书

技术领域

本发明涉及模式识别技术领域,具体涉及一种基于深度图像序列 的实时人体动作识别方法及装置。

背景技术

随着现代信息技术向智能化、人性化的方向发展,各种人机交互、 虚拟现实、智能监控系统相继出现。基于计算机视觉的人体姿势估计、 动作识别、行为理解等技术在其中扮演了重要的角色。近年来,微软 公司Kinect深度摄像机的发布,使得实时获取场景三维信息的成本大 幅度降低,也为动作识别相关领域提供了更多可能性。然而,由于人 体的非刚性、运动方式的多样性、位移的随意性,实时、鲁棒地识别 人体动作仍面临着很多挑战。

现有技术中,对于深度图像的动作识别主要有两大类方法:一类 是借用已有工具,例如Microsoft Kinect SDK等直接获取人体关节点 或骨架信息,再使用传统的模式识别算法进行识别;另一类是从原始 深度图像数据中提取图像特征。前者虽然实施方便,但难以在自主研 发的产品中使用,而且识别性能主要受制于骨架提取工具的准确性。 后者按照分类算法可分为运动模板匹配(Action template)和状态空间 方法(Temporal state-space models)。运动模板匹配也称为直接分类, 是将一组图像序列看成一个静态的形状模式,其存在难以准确描述动 作的动态过程的缺陷;状态空间方法是将动作视为一系列姿势或状态 之间的动态转移过程,以此建立概率模型,如隐马尔可夫模型(Hidden  Markov Models,HMM)、条件随机场模型(Conditional Random Fields, CRF)、最大熵马尔可夫模型(Maximum Entropy Markov Models, MEMM)等。

目前,对于深度图像动作识别的研究还非常有限,现有技术存在 一个共同的缺点:由于提取的特征与人体区域的绝对坐标相关,因此 在识别前必须进行归一化,需准确地检测目标人体在图像中的位置和 大小。然而在实际应用场合中,用户的运动具有很大的随意性,尤其 是复杂的动作可能伴随着身体的平移、倾斜或者高度的变化等等,经 常导致归一化的偏差,进而影响识别准确率;而且,现有技术中深度 图像动作识别方法的识别效率仍有待提高。

发明内容

(一)要解决的技术问题

本发明的目的在于提供一种基于深度图像序列的实时人体动作识 别方法,用于提升动作识别的效率以及动作识别的准确性和鲁棒性; 进一步的,本发明还提供了一种基于深度图像序列的实时人体动作识 别装置。

(二)技术方案

本发明技术方案如下:

一种基于深度图像序列的实时人体动作识别方法,包括步骤:

S1.从目标深度图像序列中提取目标动作剪影,从训练深度图像 集中提取训练动作剪影;

S2.对训练动作剪影进行姿势聚类,并对聚类结果进行动作标定;

S3.计算目标动作剪影以及训练动作剪影的姿势特征;

S4.结合训练动作剪影的姿势特征进行基于高斯混合模型的姿势 训练并构建姿势模型;

S5.计算聚类结果的每个动作中各姿势间的转移概率并构建动作 图模型;

S6.根据所述目标动作剪影的姿势特征、姿势模型以及动作图模 型对目标深度图像序列进行动作识别。

优选的,所述步骤S3包括:

S31.将动作剪影在直角坐标系的三个坐标平面分别投影;

S32.在第c个坐标平面的投影轮廓上选取nc个采样点;

S33.对于每个采样点计算其多维姿势特征向量

S34.每个坐标平面上所有采样点的多维姿势特征向量的集合 xc组成姿势特征{xc}。

优选的,所述步骤S33包括:

以为中心的a条辐线和以为圆心的b个同心圆形成k个网 格;

多维姿势特征向量表示第c个坐标平面上的其他采样点qc相对 于的坐标分布:

hic(k)=#{qcpic,qc,picfc:(qc-pic)bin(k)},c{1,2,3};

其中,fc表示第c个坐标平面上所有采样点的集合。

优选的,所述同心圆的直径根据fc中各采样点距离的平均值l设 置。

优选的,a=12,b=5,k=60;所述同心圆的直径分别为0.125l、0.25l、 0.5l、l、2l。

优选的,所述步骤S4包括:

将训练动作剪影在第c个坐标平面上投影的姿势模型分量 p(xcc)用Qc个高斯分布的混合表示:

p(xc|ωc)=Πi=1ncΣt=1Qcπt,ωcN(hic,μt,ωc,Σt,ωc);

其中,N(·)为高斯函数,分别是第t个高斯核的 均值、协方差矩阵及权重;

构建姿势模型:p(x|ω)=Πc=13p(xc|ωc).

优选的,所述动作图模型包括若干带权有向图;每个带权有向图 对应一种动作;带权有向图中的一个节点表示一种姿势,带权边线表 示两种姿势间的转移概率。

优选的,所述步骤S6包括:

S61.计算每一帧目标深度图像当前最有可能的姿势序列:

s*=argmaxstΩΣt=1Tlogp(xt|st);

S62.令h表示最优姿势序列s*与次优姿势序列的概率的差值;

S63.设定区分度阈值HA

S64.随着输入帧数的增加,h增大到HA时,认为姿势序列可以表 达一个动作;

S65.在训练动作集中找出使s*出现概率最大的动作。

优选的,所述步骤S65包括:

计算动作ψi中产生s*的概率L(ψi)=p(ψ)Πt=1Tp(st*|st-1*,ψ);

使s*出现概率最大的动作

本发明还提供了一种实现上述任意一种基于深度图像序列的实时 人体动作识别方法的装置:

一种基于深度图像序列的实时人体动作识别装置,包括:

动作剪影提取模块,用于从目标深度图像序列中提取目标动作剪 影,从训练深度图像集中提取训练动作剪影;

特征提取模块,用于计算目标动作剪影以及训练动作剪影的姿势 特征;

姿势模型构建模块,用于结合训练动作剪影的姿势特征进行基于 高斯混合模型的姿势训练并构建姿势模型;

动作图模型构建模块,用于对训练动作剪影进行姿势聚类,并对 聚类结果进行动作标定,计算聚类结果的每个动作中各姿势间的转移 概率并构建动作图模型;

动作识别模块,根据所述目标动作剪影的姿势特征、姿势模型以 及动作图模型对目标深度图像序列进行动作识别。

(三)有益效果

本发明实施例中所提供的基于深度图像序列的实时人体动作识别 方法,在特征提取方面,利用具有尺度及位移不变性的三维形状描述 子进行姿势特征计算,免除了归一化步骤,避免了因位置检测错误而 造成动作识别的失败;利用高斯混合模型来描述高维姿势特征的分布, 对于具有身体起伏或平移的复杂动作,具有很强的概括能力;在动作 的训练和识别方面,基于动作图模型进行匹配,达到了高效、鲁棒的 性能,更能够满足动作识别实时性的需求。

附图说明

图1是本发明实施例中基于深度图像序列的实时人体动作识别方 法的流程示意图;

图2是本发明实施例中三维形状描述子提取流程示意图;

图3是本发明实施例中形状描述子的计算示意图;

图4是本发明实施例中组成“挥手”和“体前摆手”动作的6种 姿势示意图;

图5是本发明实施例中挥手动作的动作图;

图6是本发明实施例中体前摆手动作的动作图;

图7是本发明实施例中基于深度图像序列的实时人体动作识别装 置的结构示意图。

具体实施方式

下面结合附图和实施例,对本发明的具体实施方式做进一步描述。 以下实施例仅用于说明本发明,但不用来限制本发明的范围。

流程图如图1所示的一种基于深度图像序列的实时人体动作识别 方法,主要包括步骤:

S1.从深度摄像机等硬件设备采集的目标深度图像序列中,通过 背景建模、图像分割等技术,精确地分割出人体区域,提取目标动作 剪影R,例如,如图2中第一列所示;并且以同样的方法从训练深度 图像集中提取训练动作剪影。

S2.对训练动作剪影进行姿势聚类,并对聚类结果进行动作标定; 即将训练动作剪影中的各个姿势归类到所属动作之中。

S3.计算目标动作剪影以及训练动作剪影的姿势特征;本实施例 中,该步骤S3主要包括:

S31.将动作剪影在直角坐标系的三个坐标平面分别投影。将动作 剪影投影到三个相互正交的提卡尔坐标系平面,即X-Y坐标平面,Y-Z 坐标平面和X-Z坐标平面,例如,如图2中的第二列所示。

S32.在第c个坐标平面的投影轮廓上选取nc个采样点,其中,以 c表示投影平面编号,c=1,2,3分别表示X-Y坐标平面,X-Z坐标 平面和Y-Z坐标平面。该步骤具体可以为:在三个坐标平面上的投影 的轮廓上分别随机选取一定数量的采样点,例如,如图2中第三列所 示。由于分辨率限制,Y-Z坐标平面和X-Z坐标平面的投影比较稀疏, 故采样点也较少,因此,仅在X-Y坐标平面轮廓上选取1%的点作为 采样点,在Y-Z坐标平面和X-Z坐标平面选取10%的点的作为采样点, 就可以获取丰富的三维人体形状信息。

S33.对于每个采样点计算其k维姿势特征向量本实施例 中该步骤具体包括:

以采样点为中心的a条辐线和以采样点为圆心的b个同心圆 形成k个网格;其中,所述同心圆的直径优选根据fc中各采样点距离 的平均值l设置;例如,在半径r方向取5个长度值,即取5个同心 圆,半径分别为0.125l、0.25l、0.5l、l、2l,在角度方向平均取12个 角度值,即取12条辐线,最后形成60个网格;采样点和其所在的 第c个坐标平面上的其他采样点qc相对于的坐标分布则可以相应的 表示成为一个60维姿势特征向量;进一步的,可以把这个姿势特征向 量视为在60维空间中的一个点;具体的,这个60维姿势特征向量中 的元素为:

hic(k)=#{qcpic,qc,picfc:(qc-pic)bin(k)},c{1,2,3};---(1)

其中,fc表示第c个坐标平面上所有采样点的集合;称为形状 描述子(Shape Context)。可以看到,公式中两点的距离都用f c中各采样点距离的平均值l进行了归一化。

S34.每个坐标平面上所有采样点的多维姿势特征向量的集合xc组成姿势特征{xc}。对于第c个坐标平面上的投影轮廓上的nc个采样 点,可以得到一个包含nc个60维姿势特征向量的集合,即例如,如图2的第四列所示。本实施例中定义三个投影 平面所有采样点的形状描述子的集合,即姿势特征x={x1,x2,x3},为三 维形状描述子(3D Shape Context)。从公式(1)中可以看出,由于三 维形状描述子统计的是采样点之间的相对位置,因此对不同身高、站 在不同位置的人的描述具有一致性。同时,由于对轮廓上的每个采样 点都赋予了60维的特征,三维形状描述子带有更为丰富的形状信息, 因此具有位移及尺度不变性,能够描述更为精细的姿势,免了因位置 检测错误而造成的识别失败。

S4.结合训练动作剪影的姿势特征进行基于高斯混合模型的姿势 训练并构建姿势模型;假设同一姿势的训练集中,所有三维形状描述 子的分布可以用Q个高斯分布的混合来估计,即高斯混合模型GMM。 对于一个被训练的三维姿势ω,其在X-Y、X-Z、Y-Z三个投影平面上 的“投影姿势”分别为ω1、ω2、ω3。三个投影姿势的模型共同决定了 该三维姿势的模型。设一个目标动作剪影的三维形状描述子集合为x, x={x1,x2,x3},则p(x|ω)给出了目标动作剪影x与姿势ω匹配的似然概 率。p(x|ω)即为要训练的姿势模型,它可以表示为三个投影姿势模型 的乘积:

p(x|ω)=Πc=13p(xc|ωc)---(2)

其中,每个投影姿势模型p(xcc)是Qc个高斯分布的混合:

p(xc|ωc)=Πi=1ncΣt=1Qcπt,ωcN(hic,μt,ωc,Σt,ωc)---(3)

N(·)是一个高斯函数,xc表示第c个坐标平面上nc个采样点的形 状描述子的集合,表示xc中第i个采样点的形状描述子,分别是第t个高斯核的均值、协方差矩 阵及权重。这些关于模型的参数可通过EM算法(Expectation and  Maximization,最大期望算法)在训练集上训练得到。在算法的实际实 现中,本实施例中使用主分量分析对三维形状描述子进行降维处理。

S5.根据步骤S2中的聚类结果,计算聚类结果中每个动作中各姿 势间的转移概率并构建动作图模型,利用动作图模型对动作的动态转 移过程进行建模。设Ψ={ψ12...,ψL}代表训练集中L种动作(Action) 的集合;令Ω={ω12,...ωM}代表M种姿势(Posture)的集合,例如, 如图4中所示的6种姿势ω1、ω2、ω3、ω4、ω5、ω6的集合;令 Λ={p(x|ω1),p(x|ω2),...p(x|ωM)}表示训练后的姿势模型集合。建立一 组带权有向图G,每个带权有向图概括了一种动作,带权有向图的节 点代表姿势,节点间的带权边线表示在该动作中,两种姿势之间的转 移概率,例如,如图5或者图6中所示;本实施例中,定义从“直立” 姿势经过若干其他姿势再回到“直立”姿势的过程为一个动作循环, 每种动作有多种可能的动作循环路径;图5中所示为挥手的动作图, 其中包括姿势ω12345,根据各姿势间的转移概率,可能存在多 种动作循环路径;图6中所示为体前摆手的动作图,其中包括姿势 ω1256,根据各姿势间的转移概率,可能存在多种动作循环路径。 相比于现有技术中基于轮廓点匹配或特征矩阵匹配的方法,本实施例 从统计学角度进行姿势建模更高效,更能满足实时性要求。

S6.根据所述目标动作剪影的姿势特征、姿势模型以及动作图模 型对目标深度图像序列进行动作识别。通过训练,得到可进行动作识 别的系统Γ={Ω,Λ,G,Ψ}。用X={x1,x2,...xT}表示一个以直立姿势为起 始和结束的输入序列,本实施例中,用最大似然概率方法进行图路径 的解码。在每帧目标深度图像输入时,计算该帧目标深度图像当前最 有可能的姿势序列:

s*=argmaxstΩΣt=1Tlogp(xt|st);

S62.令h表示最优姿势序列s*与次优姿势序列s*'的概率的差值;

S63.设定区分度阈值HA

S64.随着输入帧数的增加,当h增大到HA时,认为姿势序列可 以表达一个动作;

S65.在训练动作集Ψ={ψ12,...ψL}中找出使s*出现概率最大的 动作:

动作ψi中产生s*的概率L(ψi)=p(ψ)Πt=1Tp(st*|st-1*,ψ);

使s*出现概率最大的动作

本实施例中还提供了一种实现上述基于深度图像序列的实时人体 动作识别方法的装置;如图7中所示,该装置主要包括动作剪影提取 模块、特征提取模块、姿势模型构建模块、动作图模型构建模块以及 动作识别模块;其中:动作剪影提取模块,用于从目标深度图像序列 中提取目标动作剪影,从训练深度图像集中提取训练动作剪影;

特征提取模块,用于计算目标动作剪影以及训练动作剪影的姿势 特征;

姿势模型构建模块,用于结合训练动作剪影的姿势特征进行基于 高斯混合模型的姿势训练并构建姿势模型;

动作图模型构建模块,用于对训练动作剪影进行姿势聚类,并对 聚类结果进行动作标定,计算聚类结果的每个动作中各姿势间的转移 概率并构建动作图模型;

动作识别模块,根据所述目标动作剪影的姿势特征、姿势模型以 及动作图模型对目标深度图像序列进行动作识别。

以上实施方式仅用于说明本发明,而并非对本发明的限制,有关 技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下, 还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明 的保护范畴。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号