首页> 中国专利> 一种基于RepNet模型的人体多视角图像序列的骨架提取方法

一种基于RepNet模型的人体多视角图像序列的骨架提取方法

摘要

本发明公开了一种基于RepNet模型的人体多视角图像序列的骨架提取方法,基于沙漏网络的二维骨架提取方法和基于RepNet的三维骨架提取方法来提取初始的多视角三维骨架序列。将多视角骨架序列通过基于最小二乘的配准融合方法得到融合后的优化序列,最后利用帧间帧内优化模型对连续帧三维骨架序列进行优化,得到最终优化后的骨架序列;本发明利用三维融合的可扩展性,把得到的多视图三维骨架进行配准融合优化,然后得到更准确的三维骨架序列,能很好的表达运动形态。

著录项

  • 公开/公告号CN112884822A

    专利类型发明专利

  • 公开/公告日2021-06-01

    原文格式PDF

  • 申请/专利权人 北京工业大学;

    申请/专利号CN202110179042.6

  • 发明设计人 尹禹化;王洁;陈路飞;唐永正;

    申请日2021-02-09

  • 分类号G06T7/33(20170101);G06T7/73(20170101);G06T5/50(20060101);

  • 代理机构11203 北京思海天达知识产权代理有限公司;

  • 代理人沈波

  • 地址 100124 北京市朝阳区平乐园100号

  • 入库时间 2023-06-19 11:11:32

说明书

技术领域

本发明涉及计算机图形学技术领域,尤其涉及一种面向多视角连续帧的三维人体骨架提取方法。

背景技术

近年来,计算机视觉成为人工智能最为重要的方向之一。而人体骨架提取是计算机视觉领域的非常重要研究方向,也是其他研究领域的基础。例如,在行为识别、人机交互、智能安防以及辅助计算等领域是有重要意义的。人体骨架提取又称为关节点检测,它能够从图片或者视频中,把人体关键的关节点检测出来做进一步的分析和判断。简言之,人体骨架提取就是重建人的关节和肢干,用一种简单的方式来描述人的动作。

目前为止,对多视图图像提取骨架大多数是基于传统的方法,一般都是把多视图图像进行三维重建后,得到对应的点云模型或者网格模型后,再进行骨架的提取。该类方法提取出来的骨架存在骨架点缺失与位置不准确的问题,需要通过人为地去调整骨架点的个数与位置。这样人为的因素在整个骨架提取的过程中占据很大一部分时间与精力。

随着深度学习在计算机视觉方向研究取得突破性进展,基于深度学习的骨架提取方法逐渐替代了传统方法。深度学习往往会把特征提取,分类,以及空间位置的建模都在一个网络中直接建模,不需要独立的进行拆解,这样会比传统方法更方便设计和优化。通过深度学习方法提取骨架可以避免骨架点的缺失,但是对于某些角度的图片可能遮挡了图片中关键的信息,用局部信息的单视图会影响对应的二维骨架和三维骨架的生成,提取的骨架可能存在关键点偏离的问题。

因此针对上述问题,本发明提出了利用深度学习模型得到初始骨架后,再将多个视图三维骨架配准融合得到一个相对准确骨架的想法,并且考虑了连续帧之间的时间约束和空间约束来进一步优化骨架序列。

发明内容

本发明提出了一种面向多视角图像序列三维人体骨架提取方法。此方法可以在几乎没有人工干预的情况下从多视图图像序列提取出符合人体实际骨架的具有16个骨骼点的三维人体骨架。

近年来光场采集设备的发展为解决这些问题提供了契机。与传统多视图设备相比,光场设备可以自动捕捉一系列人体多视角图像,并根据灯光和频率设置进行连续运动。基于光场设备能够采集50个多视图的图像或者视频数据。本发明提出在已有的比较成熟的二维和三维骨架提取模型之上,利用三维融合的可扩展性,把得到的多视图三维骨架进行配准融合优化,然后得到更准确的三维骨架序列。因为相对静止的人体部位对应的骨架点在相邻帧中的几何位置具有局部不变性,并且在相邻帧中具有相同运动的人体部位的骨架点具有相同且相似的运动轨迹。因此,再利用连续帧信息优化有助于提取更准确的骨骼点。图1为本发明提取的骨架形式。该骨架具有16个具有代表性的骨架点,能很好的表达运动形态。

为了实现上述目的,本方法采用基于沙漏网络的二维骨架提取方法和基于RepNet的三维骨架提取方法来提取初始的多视角三维骨架序列。将多视角骨架序列通过基于最小二乘的配准融合方法得到融合后的优化序列,最后利用帧间帧内优化模型对连续帧三维骨架序列进行优化,得到最终优化后的骨架序列。各个步骤具体实现过程如下:

步骤1:基于沙漏网络的二维骨架提取和基于RepNet的三维骨架提取。

利用光场采集系统简称光场,来收集连续运动人体的多视角图像序列集,所得图像的分辨率为2048*1088。光场由以下部分组成:中央控制系统、采集软件、采集服务器、统一存储器、监视软件、主控服务器、外围的鸟笼支架、具有220万像素的50个彩色工业相机、LED闪光灯及遮光布帘。图2展示了四张不同角度拍摄的光场采集设备的实景图片。从图中可以看到鸟笼支架上有遮光布帘以及均匀分布在其表面的LED闪光灯与采集图像所用的50个工业相机。这样在采集图像时遮光布帘与LED闪光灯可以为被拍摄物体提供均匀的光照效果,以便于工业相机360°“无死角”地呈现物体全貌。

图3是光场采集系统中各组成部分间协调完成工作的示意图。在采集系统中占重要地位的工业相机与LED灯都被均匀布置在位于光场外围的鸟笼上,被重建的目标物放置于光场的采集区域中心。中央控制系统控制相机和LED闪光灯按设置的帧率进行同步触发以持续完成连续多帧多视角图像集同步采集工作,也可以为某帧设置特定的光照和打开的相机,每秒最高可采集108帧多视角图像集。在多视角图像采集中,利用监视软件可以实时监视与切换显示任意一相机采集的图像。所有工业相机捕获的图像集暂时保存在各自对应的临时存储服务器上,然后传输到同一存储服务器,通过主控服务器为局域网中的用户提供访问通道。最后,按时间顺序对50个工业相机获取的图像进行分组,以获得连续帧下的50个不同视角的图像集序列。

在光场中对做连续运动的人进行多视角拍摄,统一控制各视角摄像机,保持固定帧率。把通过光场采集的图像按照同一动作不同角度分组,每组之间是连续帧的关系,如下图4所示,通过光场采集设备采集的部分连续帧多视图图像序列。把每组的图像通过沙漏网络得到对应二维坐标后,再通RepNet网络得到对应的三维坐标,这样每组都按照同样的操作,就得到了多组连续帧多视角三维骨架序列。因为有50个角度,有些角度的有用信息并不多,影响骨架的生成,所以需要进行骨架的筛选。利用三维骨架总长和骨架中各个骨架点之间的夹角的范围来筛选符合要求的骨架,这样就避免了人工筛选的繁琐步骤。图5是筛选的通过沙漏网络和RepNet网络得到的对应二维和三维的连续帧多视角人体骨架。

步骤2:通过步骤1得到的连续帧多视角三维骨架,利用基于ICP配准方法,把不同角度同一动作的骨架配准到同一坐标系中。然后将对应点求平均获得融合后的骨架。图6为配准融合后的效果图。

ICP是基于最小二乘法的最优配准方法。主要目的就是找到旋转和平移参数,将两个不同坐标系下的点集,以其中一个点集坐标系为全局坐标系,另一个点集经过旋转和平移后两组点集重合部分完全重叠。

该算法是最常用的数据精确配准方法,在每次迭代的过程中,对数据点集的每一点,在模型点集中寻找欧氏距离最近点作为对应点,通过这组对应点使目标函数s

其中,Q代表目标点集,P代表参考点集,R代表旋转矩阵,t代表平移矩阵,N代表Q和P点集中点的个数,Q

基于上述的理论,将两个点集的配准,扩展到多个点集的配准,即选定某一点集作为目标点集,将其他角度的点集通过旋转矩阵和平移矩阵对应到目标点集。融合的原理是在配准的基础上,把所有点集中对应点坐标求平均值,得到最后融合后的三维骨架。其中,J代表角度的个数,I代表骨架点的个数,

通过对公式(2)进行求导可以得到每个角度对应的R和T。

将i,j,T变量固定,对R进行求导:

然后将i,j,O变量固定,对T进行求导:

通过利用公式(3)和(4)来得到最优的变换矩阵,然后将变换矩阵作用到点集数据上,得到新的数据点集带入下次迭代过程。直到满足终止迭代的条件。最后再利用公式(5)将配准后的点集中对应的点的坐标求均值并按照连续帧进行排列得到最终的配准融合后的骨架序列。

步骤3:将多视角连续帧按照步骤2配准与融合的方法得到连续帧骨架序列S

利用基于L

公式(6)中的第一项

其中m,n同样表示骨架所在的帧索引。S”为移动范围度量,每一元素S″

其中n表示所在帧索引,i表示所在帧中的当前骨骼点索引,j表示相同帧中的骨骼点索引,|j-i|=1表示I点要移动的方向的骨骼点索引为j,M为肩部中心点索引。因此,应该根据实验数据和需要动态调整这些系数。

公式(6)中的第二项α||DS||

其中m,n表示骨架所在的帧索引,N表示骨架序列的总帧数。α为平滑因子,控制优化后的骨骼点的帧间平滑程度,增加α可以使优化各帧的运动骨骼关联性更强,即骨骼序列更加平滑,但同时也可能降低各帧骨骼的运动特征。

为了求解公式(6)中的优化模型,加入一个辅助变量δ,δ为一个矩阵,公式(6)变为:

分两步分别对公式(10)中的变量S和δ进行优化,首先保持S固定不变,来优化δ,该优化问题变为:

在求解这个最小化问题时,在

在求解δ完成后,下一步,固定δ不变,求解S,最小化问题变为:

最小化问题的公式(12)是二次的,因此通过求导找到最小值。在优化完S后,便完成了一次迭代,更新系数λ=μ

与其它方法相比,本发明具有如下有益的效果:

传统方法提取的骨架存在明显的骨架点缺失,需要更多的人工干预来补充这一部分缺失的信息。本发明利用基于深度学习模型可以提取完整的骨架,完全避免了人工补充骨架点的繁琐操作。同时,由于单一视角下的图像可能存在遮挡或者阴影等噪音干扰导致骨架点位置错误,因此采用多视角融合同一帧的骨架,修复并丰富被模型提取出的骨架。最后,利用连续帧之间的相关性优化有助于提取更准确的骨骼点。

附图说明

图1是本发明提取的骨架形式。该骨架具有16个具有代表性的骨架点。

图2是光场采集设备。

图3光场采集系统示意图。

图4是光场采集设备和采集50个多角度连续帧a),b),c),d)是有连续三个动作的50个角度图。

图5是通过沙漏网络和RepNet网络得到的连续三帧对应二维和三维的人体骨架。

图6是多角度配准融合后的效果图。第一列为一个坐标系中6个角度的三维骨架,第二列为6个角度配准后的三维骨架,第三列为6个角度与融合后的三维骨架,第四列为最终融合后的骨架。

图7为不同数据下利用连续帧骨骼点位置优化模型优化前后对比图。图中第一行为输入骨架对应的动作图像序列,第二行为使用连续帧骨骼点优化模型优化前的骨架,第三行为使用连续帧骨骼点优化模型优化后的骨架。

图8为与现有骨架提取方法实验结果对比图。提出的基于RepNet模型的人体多视角图像序列的骨架提取方法与传统经典的骨架提取方法的效果对比。第一行为通过多视角三维重建得到的用于提取骨架的人体三维初始模型序列。第二行为用Tagliasacchi等提出的平均曲率骨架提取方法提取的骨架效果图。第三行为用Cao等的基于拉普拉斯收缩的方法提取的骨架效果图。第四行为Huang等的L1中值骨架提取方法提取的骨架效果图。第五行为用Zhang等提出的基于L0的骨架优化方法验效果图。第六行为用Zhang等提出的方法提取的标准骨架效果图。第七行为本文的方法提取的连续帧骨架效果图。

具体实施方式

为了使本发明的的目的、技术方案和特点更加明白,以下对本方法的具体实施给出进一步说明。

本发明通过与以往利用多视角图像提取骨架的方法做对比实验,来验证本发明对提取三维人体骨架的有效性。实验部分共设计三大类实验,实验一旨在验证多角度三维骨架配准与融合的有效性。实验二旨在验证本发明所提的连续帧骨骼点位置优化模型的有效性;实验三旨在验证本发明中的骨架提取方法较传统的经典骨架提取方法的优越性。

本发明所用实验数据集如下:

本发明使用光场采集系统中的50个工业相机采集的运动人体的多视角的彩色图像,各相机的像素约为220万,采集的图像分辨率为2048*1088,具体采集信息如下:

(1)采集对象为做打太极动作的女性,如图4所示,a)、b)、c)为其中一部分动作。采集帧率为每秒32帧,采集时长为180秒,每个视角共采集5760张图像,采集50个不同的视角。

(2)采集对象为做走路姿势的男性,如图4所示,d)中有连续三个动作,采集帧率为每秒30帧,采集时长为60秒,每个视角共采集1800张图像,采集50个不同的视角。

对本发明中的连续帧骨骼点位置优化模型用上述数据集进行了大量的实验。在得到各帧人体的骨架数据并做了相应的骨架标准化以及骨骼点帧间对齐匹配的处理后,使用表1中的参数进行优化,得到了较好的结果。

表1.优化模型中的参数

实验设备与所需环境

Windows10操作系统64位版本,intel CORE i7处理器,8G内存。代码使用python语言与MATLAB语言编写,深度学习框架使用的是TensorFlow。

实验结果与说明

实验一:使用基于ICP原理的配准方法,可以使同一动作不同角度的骨架以其中一个骨架作为标准,都配准到同一坐标系下,然后利用求平均的方法融合各个角度的信息,得到该动作唯一的三维骨架。如图6所示,第一列为一个坐标系中6个角度的三维骨架,第二列为6个角度配准后的三维骨架,第三列为6个角度与融合后的三维骨架,第四列为最终融合后的骨架。通过实验可以看出来,同一帧不同角度的骨架,提取出来会有差别,利用本发明中设计的配准融合方法,结合各个角度的信息,可以提取到相对准确的骨架。

实验二:使用连续帧骨骼点位置优化模型对上述配准融合后的连续帧骨架序列做优化,如图7所示。图中第一行表示提取的骨架动作图像示例,第二行表示输入配准融合后连续帧三维骨架序列,第三行表示使用连续帧骨骼点位置优化模型优化后的骨架序列。

可以看到针对不同的动作形式,本发明中的优化模型优化后均得到了较好的效果。图7-a展示了优化前存在骨架不整齐,骨架点位置错误,不能更好的展示当前动作等问题。优化结果表明通过利用本发明中的优化模型去优化输入的骨架序列,能够使得到的骨架帧间更整齐,更好的反应人体运动姿态。在图7-b中,发现第三列打太极的动作中,人物的左胳膊的位置存在偏差,利用本发明中的优化模型可以根据前后两帧左胳膊位置可以大体判断出第三列的左胳膊的位置。在图7-c中,第一列中右手腕的位置和左手腕并不平行,第二列的膝盖位置和相邻连续帧的位置也存在偏差,通过本文的帧间帧内优化模型,可以使得帧内骨骼点和相邻帧间骨骼点位置更加准确。在图7-d中,优化的结果证明了模型的有效性。

通过实验证明,帧间帧内优化模型能够使连续帧的骨架更贴合实际人体骨骼点分布。由于该优化模型考虑了相邻帧的骨骼点以及帧内骨骼点约束,所以具备修复骨骼位置异常偏差的能力,以及微调骨骼点位置使其更符合人体实际骨骼点分布的能力。实验二旨在验证提出的优化模型的有效性,用优化模型优化后的骨架更贴近真实人体骨架,更整齐,更平滑,效果更佳。

实验三:提出的基于RepNet模型的人体多视角图像序列的骨架提取方法与传统经典的骨架提取方法的效果对比。如图8所示,因为传统方法需要对多视角图像进行三维重建才可以提取对应模型的骨架,所以第一行为通过多视角三维重建得到的用于提取骨架的人体三维初始模型序列。第二行为用Tagliasacchi等提出的平均曲率骨架提取方法提取的骨架效果图,大多数骨架模型存在不完整、各分支与躯干之间的连接点不一致以及连接点处存在骨骼点缺失等问题。第三行为用Cao等的基于拉普拉斯收缩的方法提取的骨架,很明显可以看出存在严重的骨骼点缺失问题,只是简单的用骨架线连接,而没有分布均匀的骨骼点填充等问题。第四行为用Huang等的L1中值骨架提取方法提取的骨架效果图,问题与第三行类似,存在明显的骨骼点缺失,分支缺失及错误等问题。第五行为用Zhang等提出的基于L0的骨架优化方法验效果图,从图中可以看出提取到的人体三维骨架模型不完整。第六行为用Zhang等提出的方法提取的标准骨架效果图,虽然可以看出提取的骨架较上述骨架比较加完整,但是一些动作不能够准确表达。第七行为本文的方法提取的连续帧骨架效果图。

从图中不难看出,用本文的方法提取的骨架,腿部动作要优于其他方法,因为人体某些重要关节点之间的连接并不能弯曲,所以本文的方法在一些动作上明显比之前方法提取的更加准确与规范。例如第一列,左腿部分提取的骨架,本发明的方法表达明显比之前的方法更加贴合实际,更好的反应人体姿态。连续帧骨骼点位置优化算法在优化骨骼点位置时有帧间和帧内骨骼点的位置约束,使得最终的骨架更准确、更整齐、更符合实际人体骨骼点分布。因此本发明所提的方法比传统的骨架提取方法效果好,更方便被后续的姿态估计、人体造型及操作等所使用。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号