公开/公告号CN101727568A
专利类型发明专利
公开/公告日2010-06-09
原文格式PDF
申请/专利权人 索尼(中国)有限公司;
申请/专利号CN200810167492.8
申请日2008-10-10
分类号G06K9/00;G06K9/62;
代理机构北京康信知识产权代理有限责任公司;
代理人余刚
地址 100027 北京市朝阳区东三环北路霞光里18号佳程大厦A座25层
入库时间 2023-12-18 00:14:16
法律状态公告日
法律状态信息
法律状态
2017-11-24
未缴年费专利权终止 IPC(主分类):G06K9/00 授权公告日:20130417 终止日期:20161010 申请日:20081010
专利权的终止
2013-04-17
授权
授权
2011-11-16
实质审查的生效 IPC(主分类):G06K9/00 申请日:20081010
实质审查的生效
2010-06-09
公开
公开
技术领域
本发明涉及计算机视觉与机器学习领域,更具体地,涉及一种前景动作估计装置和前景动作估计方法。
背景技术
从二维图像中识别出人体的三维姿势是计算机视觉与人工智能领域的一个热点问题,这一技术可以应用于人机交互、视频监控以及数字信息的分析与理解等领域。然而这也是目前具有挑战性的难点问题,原因在于:1)二维图像中的深度信息的丢失使得从二维图像中推断三维信息存在不明确性,即,可能存在多个可能解;2)人体图像存在背景的变化、光照的变化、衣服的变化、不同的视角以及不同的姿势等因素,这些因素极大地影响了三维姿势的推断;3)人体姿势是由多个关节部位连接组合而成,人体姿势所组成的姿势空间的维数非常庞大,因而,在姿势空间中寻找最优的姿势要耗费很大的计算量。
从单目图像中估计人体姿势的方法从技术原理上可以分为基于模型的方法和基于学习的方法。基于模型的方法首先建立一个由人体各部位组成的人体模型,姿势估计的过程就是利用此模型在特征空间中搜索和匹配最接近的姿势的过程,搜索过程通常转化为非线性优化问题或者概率密度估计问题,由于姿势空间的维数非常庞大,这种方法通常需要与跟踪相结合时才能取得较好的效果,因而姿势估计的效果很大程度上取决于跟踪前模型初始化的好坏,这些方法通常也需要先得到人体的各个部位的区域。基于学习的方法直接从图像特征推断人体的三维姿势,使用较多的图像特征是人体轮廓信息,为了得到可靠的轮廓信息,已经采用的方法有运动分析、背景建模或者这两种方法的结合,然而这些方法在较复杂背景的情况下很难可靠的分离出人体轮廓。此外,其他已使用过的特征还有躯干检测、肤色信息等。
由于目前大多数方法都依赖于图像分割或者聚类,因此在复杂的背景条件下很难获得较好的效果。A.Agarwal提出了一种从图像特征中学习前景特征的方法,其利用非负矩阵分解对人体姿势特征建模从而提取前景特征,由于避免了图像分割的步骤,这种方法在应用上具有更高的灵活性,但是这一方法由于在做背景特征抑制时没有考虑背景特征与前景特征的相互影响,因此特征重建时会将一部分背景特征也认为是前景特征,从而影响了背景抑制的效果。
可见,现有的物体识别的方法和系统通常要求先从背景中分离出前景物体,而在复杂背景下又很难取得好的分离效果,因而,急需一种能够针对前景特征和背景特征建模,达到更高的背景特征抑制效果的方法。
发明内容
鉴于现有技术中的问题,本发明提供了一种前景动作估计装置和前景动作估计方法,其能够直接对图像的背景特征进行抑制,使得抑制后的图像中前景特征相对加强,从而避免了使用图像分割或者背景差分来获得前景特征的方法,然后再基于抑制背景特征后的图像特征估计人体的三维姿势,从而提高了姿势估计的准确性
根据本发明的一个方面,提供了一种用于估计图片中的前景动作的前景动作估计装置,其包括:训练图像输入装置,用于输入前景图像、背景图像、以及具有前景和背景的图像作为训练图像;基矩阵计算装置,用于通过从前景图像和背景图像中分别提取出前景特征和背景特征,分别计算出前景基矩阵和背景基矩阵,并且合并前景基矩阵和背景基矩阵以得到合并基矩阵;特征抑制装置,用于根据由基矩阵计算装置得到的合并基矩阵,计算所述训练图像的特征系数,从而得到所述训练图像的抑制背景特征后的图像特征;以及前景动作信息获得装置,用于利用抑制背景特征后的图像特征,根据图像特征到动作信息集的特征映射矩阵来估计前景动作信息。
其中,前景图像、背景图像、和训练图像的尺寸统一。
另外,根据本发明的前景动作估计装置还可以包括:存储单元,用于存储动作信息集,其中,前景图像和训练图像都对应于动作信息集中的一个动作。
在特征抑制装置中包括:特征提取单元,用于提取训练图像的图像特征;计算单元,用于计算图像特征在合并基矩阵下的特征系数;分离单元,用于分离出特征系数中的背景基系数,从而得到前景基系数;以及重建单元,用于通过前景基系数与前景基矩阵,以预定算法重建得到训练图像在抑制背景特征后的图像特征。
在本发明中,在重建单元中的预定算法为通用矩阵乘法。在基矩阵计算装置中的前景基矩阵和背景基矩阵至少是通过非负矩阵分解法得到的。前景至少包括人,动作至少包括姿势。
前景特征、背景特征和图像特征为前景图像、背景图像和训练图像的边缘方向的统计特征,至少包括HoG(Histograms of OrientedGradients)特征或SIFT(Scale Invariant Feature Transform)特征。
根据本发明的另一方面,提供了一种用于估计图片中的前景动作的前景动作估计方法,其包括以下步骤:训练图像输入步骤,用于输入前景图像、背景图像、以及具有前景和背景的图像作为训练图像;基矩阵计算步骤,用于通过从前景图像和背景图像中分别提取出前景特征和背景特征,分别计算出前景基矩阵和背景基矩阵,并且合并前景基矩阵和背景基矩阵以得到合并基矩阵;以及特征抑制步骤,用于根据由基矩阵计算步骤得到的合并基矩阵,计算所述训练图像的特征系数,从而得到所述训练图像的抑制背景特征后的图像特征;以及前景动作信息获得步骤,用于利用抑制背景特征后的图像特征,根据图像特征到动作信息集的特征映射矩阵来估计前景动作信息。
其中,前景图像、背景图像、和训练图像的尺寸统一。
另外,该前景动作估计方法还包括动作信息集存储步骤,其中,前景图像和训练图像都对应于动作信息集中的一个动作。前景至少包括人,动作至少包括姿势。
在特征抑制步骤中执行以下处理:提取训练图像的图像特征;计算图像特征在合并基矩阵下的特征系数;分离出特征系数中的背景基系数,从而得到前景基系数;以及通过前景基系数与前景基矩阵,以预定算法重建得到训练图像在抑制背景特征后的图像特征。
在本发明中,预定算法为通用矩阵乘法。前景特征、背景特征和图像特征为前景图像、背景图像和训练图像的边缘方向的统计特征,至少包括HoG特征或SIFT特征。
在基矩阵计算步骤中,至少通过非负矩阵分解法计算得到前景基矩阵和背景基矩阵。
因此,通过本发明,抑制了复杂背景图像中的背景特征,从而保留并相对加强前景特征(人体姿势信息),对于从二维单目图像中估计人体的三维姿势的准确性有显著提高。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是根据本发明的前景动作估计装置的框图;
图2是根据本发明的前景动作估计方法的流程图;
图3是根据本发明实施例的基于背景特征抑制的人体姿势估计方法的流程图;
图4是根据本发明实施例的背景特征抑制训练和背景特征抑制过程的流程图;
图5是根据本发明实施例的姿势估计训练过程的流程图,其中,(a)为输入图像,(b)为原始图像特征,以及(c)为背景特征抑制后的重建图像特征;
图6是根据本发明实施例的计算图像特征的方块取法的示意图;
图7是通过本发明得到的背景特征抑制效果的示意图;以及
图8是通过本发明得到的人体姿势估计效果的示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1是根据本发明的前景动作估计装置100的框图,如图1所示,该装置包括:训练图像输入装置102,用于输入前景图像、背景图像、以及具有前景和背景的图像作为训练图像;基矩阵计算装置104,用于通过从前景图像和背景图像中分别提取出前景特征和背景特征,分别计算出前景基矩阵和背景基矩阵,并且合并前景基矩阵和背景基矩阵以得到合并基矩阵;特征抑制装置106,用于根据由基矩阵计算装置104得到的合并基矩阵,计算所述训练图像的特征系数,从而得到所述训练图像的抑制背景特征后的图像特征;以及前景动作信息获得装置108,用于利用抑制背景特征后的图像特征,根据图像特征到动作信息集的特征映射矩阵来估计前景动作信息。
其中,前景图像、背景图像、和训练图像的尺寸统一。
另外,根据本发明的前景动作估计装置还可以包括:存储单元,用于存储动作信息集,其中,前景图像和训练图像都对应于动作信息集中的一个动作。
在特征抑制装置106中包括:特征提取单元,用于提取训练图像的图像特征;计算单元,用于计算图像特征在合并基矩阵下的特征系数;分离单元,用于分离出特征系数中的背景基系数,从而得到前景基系数;以及重建单元,用于通过前景基系数与前景基矩阵,以预定算法重建得到训练图像在抑制背景特征后的图像特征。
在本发明中,在重建单元中的预定算法为通用矩阵乘法。在基矩阵计算装置中的前景基矩阵和背景基矩阵至少是通过非负矩阵分解法得到的。前景至少包括人,动作至少包括姿势。
前景特征、背景特征和图像特征为前景图像、背景图像和训练图像的边缘方向的统计特征,至少包括HoG特征或SIFT特征。
图2是根据本发明的前景动作估计方法的框图。如图2所示,该方法包括以下步骤:
S202,输入前景图像、背景图像、以及具有前景和背景的图像作为训练图像;
S204,通过从前景图像和背景图像中分别提取出前景特征和背景特征,分别计算出前景基矩阵和背景基矩阵,并且合并前景基矩阵和背景基矩阵以得到合并基矩阵;
S206,根据由步骤S204得到的合并基矩阵,计算所输入的图像的特征系数,从而得到所输入的图像在抑制背景特征后的图像特征;以及
S208,利用抑制背景特征后的图像特征,根据图像特征到动作信息集的特征映射矩阵来估计前景动作信息。
其中,前景图像、背景图像、和训练图像的尺寸统一。
另外,该前景动作估计方法还包括动作信息集存储步骤,其中,前景图像和训练图像都对应于动作信息集中的一个动作。
在S206中执行以下处理:提取训练图像的图像特征;计算图像特征在合并基矩阵下的特征系数;分离出特征系数中的背景基系数,从而得到前景基系数;以及通过前景基系数与前景基矩阵,以预定算法重建得到训练图像在抑制背景特征后的图像特征。
在本发明中,预定算法为通用矩阵乘法。前景特征、背景特征和图像特征为前景图像、背景图像和训练图像的边缘方向的统计特征,至少包括HoG特征或SIFT特征。
在S204中,至少通过非负矩阵分解法计算得到前景基矩阵和背景基矩阵。
因此,通过本发明的前景动作估计装置或前景动作估计方法所获得的抑制背景特征后的图像特征,根据图像特征到动作信息集的特征映射矩阵,可以估计前景的动作。
以下将参考图3~图6对本发明的实施例进行详细描述,图3是根据本发明实施例的基于背景特征抑制的人体姿势估计方法的流程图,图4是根据本发明实施例的背景特征抑制训练和背景特征抑制过程的流程图,图5是根据本发明实施例的姿势估计训练过程的流程图,以及图6是根据本发明实施例的计算图像特征的方块取法的示意图。
如图3所示,根据本发明实施例的基于背景特征抑制的人体姿势估计方法包括以下步骤:
步骤S302,对输入图片求取特征,图像中边缘方向的统计性特征是描述人体姿势的一种可靠信息。优选地,本发明采用SIFT特征作为图像特征,具体的计算步骤如下。
1)分别计算图像的每一象素点在水平方向和垂直方向的梯度,即,
水平梯度:Ix(x,y)=d(I(x,y))/dx=I(x+1,y)-I(x-1,y)
垂直梯度:Iy(x,y)=d(I(x,y))/dy=I(x,y+1)-I(x,y-1)
其中,I(x,y)表示图像的灰度值,x,y分别表示象素点的水平方向和垂直方向的坐标。
2)分别计算图像的每一象素点的梯度方向和幅值,即,
梯度方向:θ(x,y)=arg tg(|Iy/Ix|)
梯度幅值:
其中梯度方向θ(x,y)的范围为[0,π]。
3)在图像中从左至右、从上至下依次取24个32×32大小的方块,其中水平方向每行6个方块,垂直方向每列4个方块,每两个方块之间依次重叠一半,如图6所示。
4)将每一个32×32的方块划分为16个8×8的小方块,其中水平方向每行4个小方块,垂直方向每列4个小方块,每两个小方块之间依次排列。
5)在每一个8×8的小方块中,计算方块中64个象素点的梯度方向直方图,将梯度方向划分为8个方向区间,即从0到π范围内每为一个区间。即在每一个8×8的小方块中统计8个方向区间内的梯度值,其中梯度方向根据各自的幅值加权,从而得到一个8维向量,每一个32×32的方块得到一个128维向量。
6)将每一方块的向量依次连接得到图像特征,图像特征的维数为3072维,即128×24=3072。
步骤S304,计算输入图像的图像特征在合并基矩阵下的特征系数,分离特征系数中的前景部分,与前景基重建得到背景特征抑制后的图像特征,具体的计算步骤如下。
1)对输入图像提取图像的SIFT特征得到VTest,输入图像如图7(a)所示,特征图像如图7(b)所示。
2)计算待处理图像特征VTest在合并基WCom下的特征系数HCom;HCom根据线性方程VTest=WCom·HCom计算得到,优选地,本发明采用Levenberg-Marquardt算法计算HCom
3)提取特征系数HCom中对应于基WFore的前景部分HFore。
其中,因为所以
4)利用提取出的前景部分的特征系数HFore与前景基WFore计算得到重建后的前景图像特征,即,V′Test=WFore·HFore,重建后的前景图像特征如图7(c)所示。
步骤S306,根据图像特征到三维姿势信息的特征映射矩阵估计抑制背景特征后的图像特征所对应的人体三维姿势,具体的计算步骤如下。
将特征映射矩阵Map与重建后的前景图像特征向量V′test相乘得到姿势特征向量Pos,即Pos=Map·V′test,然后输出三维姿势信息Pos。
图4是根据本发明实施例的背景特征抑制训练和背景特征抑制过程的流程图。在本发明中,训练图片集由前景图片(人体)集和背景图片集组成,训练集中的图片已经设置为统一宽高(120×100)的图片。
如图4所示,具体包括以下步骤:
计算训练图片集中背景图片的特征,采用SIFT特征作为图像特征,其计算步骤如步骤S302;
利用非负矩阵分解训练得到背景特征图像的基矩阵WBack,非负矩阵分解将一个非负矩阵Vm*n分解为两个非负矩阵的乘积,即,Vm*n=Wm*r·Hr*n,其中W是V的基矩阵,H是对应于W的特征系数矩阵,m是特征的维数,r是特征系数的维数。由于r<m,因此非负矩阵分解也能达到特征压缩的目的;
计算训练图片集中前景图片的特征,采用SIFT特征作为图像特征,其计算步骤如步骤S302;
训练得到前景图片的基矩阵其计算步骤如步骤S304;以及
合并前景基和背景基得到合并基WCom,合并方法为:
在本发明中,采用非负矩阵分解训练图像的基矩阵,具体算法为:
1)根据计算得到训练图片集的特征,将Nback张图片的每一方块中的特征依次连接得到一个Vtrainback的矩阵,Vtrainback的每一列是训练图片集中每一背景图片的图像特征,Vtrainback是3072×Nback维矩阵,Nback是训练图片集中背景图片的张数,最后得到背景特征矩阵集合
2)利用非负矩阵分解方法将Vtrainback(i)分解为Wback(i)和Hback(i)的乘积,i=1,2,...,24。这里取r=30,实验结果表明r=30能达到最优的压缩与性能比。对每一方块训练得到一个基矩阵Wback(i),i=1,2,...,24;以及
3)得到背景基矩阵的集合
图5是根据本发明实施例的姿势估计训练过程的流程图。在本发明中,训练集由人体姿势图片集和姿势信息集组成,其中人体姿势图片集中的人体姿势图片与姿势信息集中的人体姿势信息一一对应,具体的姿势估计训练过程如下:
步骤S502,提取人体姿势图片集中每一图片的图像特征,采用SIFT特征作为图像特征,其计算步骤如步骤S302;
步骤S504,对训练图片集中的人体姿势图片的图像特征进行背景特征抑制,其计算步骤如步骤S304;以及
步骤S506,利用训练集中的图像特征集与姿势信息集训练得到图像特征到三维姿势信息的特征映射矩阵。
步骤S506,首先,将人体姿势图片集中的所有图片的图像特征依次连接得到VtrainFeature矩阵,VtrainFeature的每一列是训练图片集中每一人体姿势图片的图像特征,VtrainFeature是3072×NFeature维矩阵,NFeature是训练图片集中的图片张数。然后,将姿势信息集中的人体姿势图片所对应的姿势信息连接得到Postrain矩阵,Postrain的每一列是姿势信息集中每一人体姿势信息的向量pos,pos定义为人体8个部位的三位坐标,这八个部位是头部、腰部、左手腕、左手臂、左肩、右手腕、右手臂和右肩,因此,pos=[x1,y1,z1,x2,y2,z2,...,x24,y24,z24]T,Postrain是24×NFeature维矩阵。最后,求解线性方程组:采用脊回归方法求此方程组的最优解。
通过本发明得到的人体姿势估计效果如图8所示。在图8中,(a)为输入的图像,(b)为输入图像的特征图像,(c)为通过本发明背景特征抑制后的特征图像,以及(d)为通过本发明得到的姿势估计后的姿势图像。
综上所述,通过本发明,抑制了复杂背景图像中的背景特征,从而保留并相对加强前景特征(人体姿势信息),对于从二维单目图像中估计人体的三维姿势的准确性有显著提高。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
机译: 前景动作估计装置和前景动作估计方法
机译: 笔者动作估计装置,笔者动作估计模型学习装置,笔者动作估计方法,笔者动作估计模型学习方法以及程序
机译: 对话动作估计装置,对话动作估计方法,对话动作估计模型学习装置和程序