法律状态公告日
法律状态信息
法律状态
2023-05-26
专利权质押合同登记的生效 IPC(主分类):G06T17/00 专利号:ZL2015103058028 登记号:Y2023980040155 登记生效日:20230509 出质人:杭州远传新业科技股份有限公司 质权人:中国光大银行股份有限公司杭州分行 发明名称:基于多模态自编码模型的单视角视频人体姿态恢复方法 申请日:20150604 授权公告日:20171222
专利权质押合同登记的生效、变更及注销
2022-06-24
专利权人的姓名或者名称、地址的变更 IPC(主分类):G06T17/00 专利号:ZL2015103058028 变更事项:专利权人 变更前:杭州远传新业科技有限公司 变更后:杭州远传新业科技股份有限公司 变更事项:地址 变更前:310000 浙江省杭州市滨江区信诚路857号世茂中心23楼 变更后:311611 浙江省杭州市滨江区浦沿街道信诚路857号悦江商业中心23011室
专利权人的姓名或者名称、地址的变更
2019-11-05
专利权的转移 IPC(主分类):G06T17/00 登记生效日:20191016 变更前: 变更后: 申请日:20150604
专利申请权、专利权的转移
2017-12-22
授权
授权
2015-10-07
实质审查的生效 IPC(主分类):G06T17/00 申请日:20150604
实质审查的生效
2015-09-09
公开
公开
查看全部
技术领域
本发明涉及计算机视觉领域,尤其涉及单视角视频中人体三维姿态的恢复方法。
背景技术
人体姿态恢复的目的是将单视角视频中人体的三维骨架精准的提取出来。利用普通单视角视频进行人体三维运动恢复在运动捕获、三维动画、智能视频监控以及人机交互等方面有广泛的应用。通常可形式化地用
样例学习方法则假定已知一些对应的图像和姿态样本,以此训练一个从X到Y的映射m。该映射可以是函数拟合,如神经网络、相关向量机、径向基函数、贝叶斯混合专家模型进行拟合,也可以是关系数据库查找表。总的来说,样例学习方法主要由三个步骤组成:1)在图像上提取视觉特征;2)利用机器学习算法建立图像特征与三维姿态之间的映射挂系;3)依据已建立的映射关系,从图像中恢复三维姿态。当前的样例学习方法主要存在以下两个问题:难以有效建立二维图像到三维姿态之间的映射关系,难以有效描述图像与三维姿态的视觉特征。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于多层感知器模型的三维姿态重建方法。本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤1、在提取视觉特征的过程中,针对图像的形状、颜色、边界等多种视觉特征,采用基于超图学习的多模态低秩矩阵表示获得的图像的统一视觉特征;
步骤2、在内在特征提取过程中,通过训练自编码模型分别获得图像与三维姿态的内在特征;
步骤3、基于步骤2获得图像与三维姿态的内在特征,采用无监督流形对齐技术,将图像与三维姿态的内在特征投影到一个共享的低维空间中,获得低维特征;
步骤4、在训练多层感知器网络的过程中,基于步骤3已获得的图像与三维姿态的低维特征,再训练一个神经网络模型用于学习图像与三维姿态之间的映射关系;
步骤5、在训练多层感知器网络的过程中,利用步骤2中的自编码模型,步骤3中的无监督流形对齐模型以及步骤4中的神经网络模型,构建五层的全新感知器网络,以图像块作为输入,三维人体姿态作为输出,微调五层全新感知器网络的参数;
步骤6、将步骤5得到的五层全新感知器网络做图像三维姿态重建,以图像的多种视觉特征作为输入,得到的输出即为对应三维姿态。
步骤1所述的通过基于超图学习的多模态低秩矩阵表示获得的图像的多种视觉特征,具体如下:
1-1.提取训练图像的多种模态特征X(1),X(2),…,X(m),其中m表示特征的类型和数量。
1-2.给定一个矩阵特征向量X(j),在该特征下的样本近邻矩阵通过求解以下目标函数获得:
> (公式1)
s.t.X(j)=X(j)Q0+E0
其中,||·||*表示核函数,||·||2,1是指L21范数,参数λ>0则用于平衡两部分的影响,X(j)表示X的第j种特征。最优化得到的Q0自然的形成一个近邻矩阵。
1-3.针对多种模态特征,采用多任务低秩近邻矩阵求解,其目标函数是:
> (公式2)
s.t.X(j)=X(j)Q(j)+E(j),j=1,…,m
其中α>0是给定的参数,Q是将多特征下的矩阵Q1,Q2,…,Qm连接起来获得
1-4.依据得到的近邻矩阵Q,构建样本数据的流形空间,采用超图学习技术构建出流形矩阵L,并通过特征根矩阵分解得到图像数据的统一视觉特征表示X*。
步骤2所述的通过训练两个自编码器分别获得图像与三维姿态的内在特征,具体如下:
2-1.提取训练库中的姿态数据y1,y2,…,yn和对应的图像的统一视觉特征
2-2.为了得到姿态数据的内在特征表示,采用自编码模型,假设编码层的参数为
> (公式4)
其中>为sigmoid函数。
2-3.利用Feedforward和Backpropagation算法对目标函数l3D进行优化,得到目标参数
2-4.为了得到图像数据的内在特征表示,采用自编码模型,假设编码层的参数为
> (公式5)
其中,
2-5.利用Feedforward和Backpropagation算法对目标函数l2D进行优化,得到目标参数
步骤3所述的采用无监督流形对齐技术,将图像与三维姿态的内在特征h2D与h3D投影到一个共享的低维空间中,具体如下:
3-1.利用步骤2所述技术分别计算出图像与三维姿态的内在特征h2D与h3D。
3-2.假设图像与三维姿态的内在特征所对应的低维表示是t2D与t3D,则无监督流形对齐的目标函数是:
> (公式6)
其中Ω(t2D,t3D)的第一项统计了h2D与h3D对应的低维表示在新空间中的距离,第二项与第三项分别保留了各自空间h2D与h3D的内在近邻关系,
3-3.采用一定的数学变换,公式(6)能表示为:Ω(t)=tLtT,其中L是拉普拉斯(laplacian)矩阵,具体计算如下:
> (公式7)
其中,L2D描述了图像内在特征的laplacian矩阵,L3D描述了三维骨架姿态内在特征的laplacian矩阵,V2D,V2D 3D,V3D 2D与V3D则是对角线上元素非0的矩阵,这些矩阵的计算方式如下:
>
其中V(g)用于统一表示矩阵V2D,V2D 3D,V3D 2D与V3D。
3-4.采用线性投影技术和特征根分解技术,对laplacian矩阵L采用特征根分解,分别得到内在表示h2D与h3D的低维空间投影矩阵α与β。
步骤4所述的训练一个神经网络模型学习图像和对应三维姿态在低维空间中的非线性映射关系,具体步骤是:
构建一个神经网络模型,设其权重矩阵WN,偏移矩阵为bN,输入为低分辨率图像块的低维特征t2D,输出为t3D,其目标函数如公式8所示:
> (公式8),
其中>为sigmoid函数。
步骤5所述的生成一个五层的全新感知器网络,该网络以图像的统一视觉特征作为输入,得到的输出即为对应的三维姿态恢复结果,从而实现快速的图像姿态恢复,具体如下:
5-1.构建五层的全新感知器网络,其第i层的权重矩阵为Wi,偏移矩阵为bi,参数的初始化为:
5-2.用backpropogation算法优化目标函数,并得到以上参数。
5-3.训练结束后,将数据库中的任意图像作为五层感知器网络的输入,得到的输出就是重建的三维姿态数据。
本发明具有的有益的效果如下:
通过学习提取图像和三维姿态的特征和学习图像和三维姿态之间的非线性映射关系,指导三维姿态的重建过程,不仅提高了重建结果的质量,而且使得重建的时间大大缩短,可以达到实时的要求。
附图说明
图1是本发明流程图;
图2是基于超图学习的多模态低秩矩阵表示获得图像的视觉特征示意图;
图3是本发明基于多层感知网络的三维姿态恢复的训练过程框架示意图;
图4是将图像与三维姿态的内在特征投影到一个共享的低维空间中示意图;
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,基于多模态自编码模型的单视角视频人体姿态恢复方法,具体包括如下步骤:
步骤1、在提取视觉特征的过程中,针对图像的形状、颜色、边界等多种视觉特征,采用基于超图学习的多模态低秩矩阵表示获得的图像的统一视觉特征;
步骤2、在内在特征提取过程中,通过训练自编码模型分别获得图像与三维姿态的内在特征;
步骤3、基于步骤2获得图像与三维姿态的内在特征,采用无监督流形对齐技术,将图像与三维姿态的内在特征投影到一个共享的低维空间中,获得低维特征;
步骤4、在训练多层感知器网络的过程中,基于步骤3已获得的图像与三维姿态的低维特征,再训练一个神经网络模型用于学习图像与三维姿态之间的映射关系;
步骤5、在训练多层感知器网络的过程中,利用步骤2中的自编码模型,步骤3中的无监督流形对齐模型以及步骤4中的神经网络模型,构建五层的全新感知器网络,以图像块作为输入,三维人体姿态作为输出,微调五层全新感知器网络的参数;
步骤6、将步骤5得到的五层全新感知器网络做图像三维姿态重建,以图像的多种视觉特征作为输入,得到的输出即为对应三维姿态。
如图2所示,步骤1所述的基于超图学习的多模态低秩矩阵表示获得图像的视觉特征,具体如下:
1-1.提取训练图像的多种模态特征X(1),X(2),…,X(m),其中m表示特征的类型和数量。
1-2.给定一个矩阵特征向量X(j),在该特征下的样本近邻矩阵通过求解以下目标函数获得:
> (公式1)
s.t.X(j)=X(j)Q0+E0
其中,||·||*表示核函数,||·||2,1是指L21范数,参数λ>0则用于平衡两部分的影响,X(j)表示X的第j种特征。最优化得到的Q0自然的形成一个近邻矩阵。
1-3.针对多种模态特征,采用多任务低秩近邻矩阵求解,其目标函数是:
>(公式2)
s.t.X(j)=X(j)Q(j)+E(j),j=1,…,m
其中α>0是给定的参数,Q是将多特征下的矩阵Q1,Q2,…,Qm连接起来获得
1-4.依据得到的近邻矩阵Q,构建样本数据的流形空间,采用超图学习技术构建出流形矩阵L,并通过特征根矩阵分解得到图像数据的统一视觉特征表示X*。
如图3所示,步骤2所述的通过训练两个自编码器分别获得图像与三维姿态的内在特征,具体如下:
2-1.提取训练库中的姿态数据y1,y2,…,yn和对应的图像的统一视觉特征
2-2.为了得到姿态数据的内在特征表示,采用自编码模型,假设编码层的参数为
> (公式4)
其中>为sigmoid函数。
2-3.利用Feedforward和Backpropagation算法对目标函数l3D进行优化,得到目标参数
2-4.为了得到图像数据的内在特征表示,采用自编码模型,假设编码层的参数为
> (公式5)
其中,
2-5.利用Feedforward和Backpropagation算法对目标函数l2D进行优化,得到目标参数
如图4所示,步骤3所述的采用无监督流形对齐技术,将图像与三维姿态的内在特征h2D与h3D投影到一个共享的低维空间中,具体如下:
3-1.利用步骤2所述技术分别计算出图像与三维姿态的内在特征h2D与h3D。
3-2.假设图像与三维姿态的内在特征所对应的低维表示是t2D与t3D,则无监督流形对齐的目标函数是:
> (公式6)
其中Ω(t2D,t3D)的第一项统计了h2D与h3D对应的低维表示在新空间中的距离,第二项与第三项分别保留了各自空间h2D与h3D的内在近邻关系,
3-3.采用一定的数学变换,公式(6)能表示为:Ω(t)=tLtT,其中L是拉普拉斯(laplacian)矩阵,具体计算如下:
> (公式7)
其中,L2D描述了图像内在特征的laplacian矩阵,L3D描述了三维骨架姿态内在特征的laplacian矩阵,V2D,V2D 3D,V3D 2D与V3D则是对角线上元素非0的矩阵,这些矩阵的计算方式如下:
>
其中V(g)用于统一表示矩阵V2D,V2D 3D,V3D 2D与V3D。
3-4.采用线性投影技术和特征根分解技术,对laplacian矩阵L采用特征根分解,分别得到内在表示h2D与h3D的低维空间投影矩阵α与β。
如图2所示,步骤4所述的训练一个神经网络模型学习图像和对应三维姿态在低维空间中的非线性映射关系,具体步骤是:
构建一个神经网络模型,设其权重矩阵WN,偏移矩阵为bN,输入为低分辨率图像块的低维特征t2D,输出为t3D,其目标函数如公式8所示:
> (公式8),
其中>为sigmoid函数。
步骤5所述的生成一个五层的全新感知器网络,该网络以图像的统一视觉特征作为输入,得到的输出即为对应的三维姿态恢复结果,从而实现快速的图像姿态恢复,具体如下:
5-1.构建五层的全新感知器网络,其第i层的权重矩阵为Wi,偏移矩阵为bi,参数的初始化为:
5-2.用backpropogation算法优化目标函数,并得到以上参数。
5-3.训练结束后,将数据库中的任意图像作为五层感知器网络的输入,得到的输出就是重建的三维姿态数据。
机译: 用于通过考虑编码顺序执行基于仿射模型的预测的视频编码方法,以及通过考虑解码顺序和其设备来执行基于仿射模型的预测的视频解码方法
机译: 基于人体关节模型数据库的人体姿态识别系统
机译: 基于这些参数的基于这些参数的人体模型参数确定人体模型参数的方法和系统,并基于这种车身模型模拟人体