首页> 中国专利> 基于多模态自编码模型的单视角视频人体姿态恢复方法

基于多模态自编码模型的单视角视频人体姿态恢复方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于多层感知网络的单视角视频人体三维姿态恢复的方法。本发明包括以下步骤：1、采用基于超图学习的多模态低秩矩阵表示获得图像的视觉特征；2、通过训练自编码模型获得图像与三维姿态的内在特征；3、采用无监督流形对齐技术，将图像与三维姿态的内在特征投影到一个共享的低维空间中；4、训练神经网络用于学习图像与三维姿态之间的映射关系；5、利用自编码模型，无监督流形对齐模型及神经网络模型，构建五层感知器网络，并微调五层网络的参数；6、以图像的多种视觉特征作为输入，得到的输出即为对应三维姿态。本发明不仅提高了三维姿态恢复的质量，而且缩短了姿态恢复的时间，可达到实时姿态恢复的要求。

著录项

公开/公告号CN104899921A

专利类型发明专利
公开/公告日2015-09-09

原文格式PDF
申请/专利权人杭州电子科技大学;
展开▼

申请/专利号CN201510305802.8
发明设计人俞俊;洪朝群;
展开▼

申请日2015-06-04
分类号G06T17/00(20060101);G06T7/00(20060101);
代理机构33200 杭州求是专利事务所有限公司;
代理人叶志坚
地址 310018 浙江省杭州市下沙高教园区2号大街
入库时间 2023-12-18 10:55:13

法律信息

法律状态公告日

法律状态信息

法律状态
2023-05-26

专利权质押合同登记的生效 IPC(主分类):G06T17/00 专利号:ZL2015103058028 登记号:Y2023980040155 登记生效日:20230509 出质人:杭州远传新业科技股份有限公司质权人:中国光大银行股份有限公司杭州分行发明名称:基于多模态自编码模型的单视角视频人体姿态恢复方法申请日:20150604 授权公告日:20171222

专利权质押合同登记的生效、变更及注销
2022-06-24

专利权人的姓名或者名称、地址的变更 IPC(主分类):G06T17/00 专利号:ZL2015103058028 变更事项:专利权人变更前:杭州远传新业科技有限公司变更后:杭州远传新业科技股份有限公司变更事项:地址变更前:310000 浙江省杭州市滨江区信诚路857号世茂中心23楼变更后:311611 浙江省杭州市滨江区浦沿街道信诚路857号悦江商业中心23011室

专利权人的姓名或者名称、地址的变更
2019-11-05

专利权的转移 IPC(主分类):G06T17/00 登记生效日:20191016 变更前: 变更后: 申请日:20150604

专利申请权、专利权的转移
2017-12-22

授权

授权
2015-10-07

实质审查的生效 IPC(主分类):G06T17/00 申请日:20150604

实质审查的生效
2015-09-09

公开

公开

查看全部

说明书

技术领域

本发明涉及计算机视觉领域，尤其涉及单视角视频中人体三维姿态的恢复方法。

背景技术

人体姿态恢复的目的是将单视角视频中人体的三维骨架精准的提取出来。利用普通单视角视频进行人体三维运动恢复在运动捕获、三维动画、智能视频监控以及人机交互等方面有广泛的应用。通常可形式化地用表示姿态矢量空间，用表示图像特征空间，要求对任意给定x∈X计算其对应的y∈Y。但这是很困难的，因为从X到Y的映射非常复杂且不是一对一的。常见的恢复从X到Y的映射的方法可分为两类：生成式模型方法和样例学习方法。虽然从X到Y的映射很复杂，但其反向映射Y→X具有完整的定义，即给定一个姿态，总能很好的找到对应的图像。因此，生成式模型方法将姿态恢复表达为优化问题argmin_yl(f(y)-x)。其中l是空间X的距离函数，即寻找一个最佳姿态，该姿态下渲染出的图像和视频图像最匹配。Deutscher等采用粒子滤波框架进行快速优化，Chen等采用马尔科夫网络和梯度算法进行基于概率的姿态估计，Zhao等采用PCA对解空间进行降维，并提出分层的模拟退火遗传算法进行优化搜索。生成式模型方法难以解决数值优化的计算复杂度高，以及局部最小值问题。

样例学习方法则假定已知一些对应的图像和姿态样本，以此训练一个从X到Y的映射m。该映射可以是函数拟合，如神经网络、相关向量机、径向基函数、贝叶斯混合专家模型进行拟合，也可以是关系数据库查找表。总的来说，样例学习方法主要由三个步骤组成：1)在图像上提取视觉特征；2)利用机器学习算法建立图像特征与三维姿态之间的映射挂系；3)依据已建立的映射关系，从图像中恢复三维姿态。当前的样例学习方法主要存在以下两个问题：难以有效建立二维图像到三维姿态之间的映射关系，难以有效描述图像与三维姿态的视觉特征。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于多层感知器模型的三维姿态重建方法。本发明解决其技术问题所采用的技术方案包括以下步骤：

步骤1、在提取视觉特征的过程中，针对图像的形状、颜色、边界等多种视觉特征，采用基于超图学习的多模态低秩矩阵表示获得的图像的统一视觉特征；

步骤2、在内在特征提取过程中，通过训练自编码模型分别获得图像与三维姿态的内在特征；

步骤3、基于步骤2获得图像与三维姿态的内在特征，采用无监督流形对齐技术，将图像与三维姿态的内在特征投影到一个共享的低维空间中，获得低维特征；

步骤4、在训练多层感知器网络的过程中，基于步骤3已获得的图像与三维姿态的低维特征，再训练一个神经网络模型用于学习图像与三维姿态之间的映射关系；

步骤5、在训练多层感知器网络的过程中，利用步骤2中的自编码模型，步骤3中的无监督流形对齐模型以及步骤4中的神经网络模型，构建五层的全新感知器网络，以图像块作为输入，三维人体姿态作为输出，微调五层全新感知器网络的参数；

步骤6、将步骤5得到的五层全新感知器网络做图像三维姿态重建，以图像的多种视觉特征作为输入，得到的输出即为对应三维姿态。

步骤1所述的通过基于超图学习的多模态低秩矩阵表示获得的图像的多种视觉特征，具体如下：

1-1.提取训练图像的多种模态特征X⁽¹⁾,X⁽²⁾,…,X^(m)，其中m表示特征的类型和数量。

1-2.给定一个矩阵特征向量X^(j)，在该特征下的样本近邻矩阵通过求解以下目标函数获得：

$> \min_{Q_{0}, E_{0}} {| | Q_{0} | |}_{*} + λ {| | E_{0} | |}_{2,1}$ > (公式1)

s.t.X^(j)＝X^(j)Q₀+E₀

其中，||·||_*表示核函数，||·||_2,1是指L21范数，参数λ>0则用于平衡两部分的影响，X^(j)表示X的第j种特征。最优化得到的Q₀自然的形成一个近邻矩阵。

1-3.针对多种模态特征，采用多任务低秩近邻矩阵求解，其目标函数是：

$> \underset{E^{(1)}, . . ., E^{(m)}}{\min_{Q^{(1)}, . . ., Q^{(m)}}} Σ_{j = 1}^{m} ({| | Q^{(j)} | |}_{*} + λ {| | E^{(j)} | |}_{2,1}) + α {| | Q | |}_{2,1}$ > (公式2)

s.t.X^(j)＝X^(j)Q^(j)+E^(j),j＝1,…,m

其中α>0是给定的参数，Q是将多特征下的矩阵Q¹,Q²,…,Q^m连接起来获得

(公式3)

1-4.依据得到的近邻矩阵Q，构建样本数据的流形空间，采用超图学习技术构建出流形矩阵L，并通过特征根矩阵分解得到图像数据的统一视觉特征表示X^*。

步骤2所述的通过训练两个自编码器分别获得图像与三维姿态的内在特征，具体如下：

2-1.提取训练库中的姿态数据y₁,y₂,…,y_n和对应的图像的统一视觉特征

2-2.为了得到姿态数据的内在特征表示，采用自编码模型，假设编码层的参数为和而解码层的参数为和自编码模型以原始数据y₁,y₂,…,y_n作为输入，通过训练使得输出的结果与原始的输入数据相同，其目标函数l^3D如公式4所示：

$> l^{3 D} = Σ_{j = 1}^{n} {| | \overline{y_{j}} - y_{j} | |}^{2}$ > (公式4)

其中 $> h_{j}^{3 D} = g (W_{1}^{3 D} y_{i} + b_{1}^{3 D}), \overline{y_{j}} = g (W_{2}^{3 D} h_{j}^{3 D} + b_{2}^{3 D}), g (z) = \frac{1}{1 + \exp (- z)}$ >为sigmoid函数。

2-3.利用Feedforward和Backpropagation算法对目标函数l^3D进行优化，得到目标参数与并计算得到为y_j的内在特征。

2-4.为了得到图像数据的内在特征表示，采用自编码模型，假设编码层的参数为和而解码层的参数为和自编码模型是以统一表示特征数据作为输入，其目标函数l^2D如公式5所示：

$> l^{2 D} = Σ_{j = 1}^{n} {| | \overline{x_{j}^{*}} - x_{j}^{*} | |}^{2}$ > (公式5)

其中，表示第j个输入数据，而表示第j个输入数据对应的输出数据。

2-5.利用Feedforward和Backpropagation算法对目标函数l^2D进行优化，得到目标参数与并计算得到为x_j的内在特征。

步骤3所述的采用无监督流形对齐技术，将图像与三维姿态的内在特征h^2D与h^3D投影到一个共享的低维空间中，具体如下：

3-1.利用步骤2所述技术分别计算出图像与三维姿态的内在特征h^2D与h^3D。

3-2.假设图像与三维姿态的内在特征所对应的低维表示是t^2D与t^3D，则无监督流形对齐的目标函数是：

$> (\begin{matrix} Ω (t^{2 D}, t^{3 D}) = μ Σ_{i \in l} {(t_{i}^{2 D} - t_{i}^{3 D})}^{2} \\ + \frac{1}{2} Σ_{i, j} {(t_{i}^{2 D} - t_{j}^{2 D})}^{2} W_{2 D}^{i, j} \\ + \frac{1}{2} Σ_{i, j} {(t_{i}^{3 D} - t_{j}^{3 D})}^{2} W_{3 D}^{i, j} \end{matrix})$ > (公式6)

其中Ω(t^2D,t^3D)的第一项统计了h^2D与h^3D对应的低维表示在新空间中的距离，第二项与第三项分别保留了各自空间h^2D与h^3D的内在近邻关系，计算了图像样本与的内在表示之间的距离，而则计算了三维姿态样本y_i与y_j的内在表示之间的距离。

3-3.采用一定的数学变换，公式(6)能表示为：Ω(t)＝tLt^T，其中L是拉普拉斯(laplacian)矩阵，具体计算如下：

$> L = (\begin{matrix} L^{2 D} + V^{2 D} & - V^{2 D 3 D} \\ - V^{3 D 2 D} & L^{3 D} + V^{3 D} \end{matrix}) \geq 0$ > (公式7)

其中，L^2D描述了图像内在特征的laplacian矩阵，L^3D描述了三维骨架姿态内在特征的laplacian矩阵，V^2D，V^2D 3D，V^3D 2D与V^3D则是对角线上元素非0的矩阵，这些矩阵的计算方式如下：

$> V_{ij}^{(g)} = (\begin{matrix} μ, i = j \\ 0, otherwise \end{matrix})$ >

其中V^(g)用于统一表示矩阵V^2D，V^2D 3D，V^3D 2D与V^3D。

3-4.采用线性投影技术和特征根分解技术，对laplacian矩阵L采用特征根分解，分别得到内在表示h^2D与h^3D的低维空间投影矩阵α与β。

步骤4所述的训练一个神经网络模型学习图像和对应三维姿态在低维空间中的非线性映射关系，具体步骤是：

构建一个神经网络模型，设其权重矩阵W^N，偏移矩阵为b^N，输入为低分辨率图像块的低维特征t^2D，输出为t^3D，其目标函数如公式8所示：

$> l = Σ_{j = 1}^{n} {| | t_{j}^{2 D} - t_{j}^{3 D} | |}^{2}$ > (公式8)，

其中 $> t_{j}^{3 D} = g (W^{N} t_{j}^{2 D} + b^{N}), g (z) = \frac{1}{1 + \exp (- z)}$ >为sigmoid函数。

步骤5所述的生成一个五层的全新感知器网络，该网络以图像的统一视觉特征作为输入，得到的输出即为对应的三维姿态恢复结果，从而实现快速的图像姿态恢复，具体如下：

5-1.构建五层的全新感知器网络，其第i层的权重矩阵为W_i，偏移矩阵为b_i，参数的初始化为：W₂＝α，b₂＝0，W₃＝W^N，b₃＝b^N，W₄＝β，b₄＝0，

5-2.用backpropogation算法优化目标函数，并得到以上参数。

5-3.训练结束后，将数据库中的任意图像作为五层感知器网络的输入，得到的输出就是重建的三维姿态数据。

本发明具有的有益的效果如下：

通过学习提取图像和三维姿态的特征和学习图像和三维姿态之间的非线性映射关系，指导三维姿态的重建过程，不仅提高了重建结果的质量，而且使得重建的时间大大缩短，可以达到实时的要求。

附图说明

图1是本发明流程图；

图2是基于超图学习的多模态低秩矩阵表示获得图像的视觉特征示意图；

图3是本发明基于多层感知网络的三维姿态恢复的训练过程框架示意图；

图4是将图像与三维姿态的内在特征投影到一个共享的低维空间中示意图；

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示，基于多模态自编码模型的单视角视频人体姿态恢复方法，具体包括如下步骤：