首页> 中国专利> 一种基于视觉的实时人体全身体运动捕捉方法及其系统

一种基于视觉的实时人体全身体运动捕捉方法及其系统

摘要

本发明公开了一种基于视觉的实时人体全身体运动捕捉方法及其系统,包括:多摄像机同步采集单元,用于采集感兴趣三维空间场景视频流;三维形体和三维运动流实时重建单元,用于实时重建人体对象的三维形体和全身体的三维运动流信息;人体全身体姿态估计和跟踪单元,用于对三维人体全身体运动姿态实时估计和跟踪;虚拟角色由运动数据实时驱动显示单元,用于把捕捉到的骨架姿态数据实时驱动虚拟角色并在显示装置上显示。本发明所公开的基于视觉的实时人体全身运动捕捉系统和方法通过非接触的计算机视觉方法,无须额外的穿戴标识设备,可实现了对人体全身骨架姿态数据实时获取并实时对虚拟角色驱动,相对于一般的动作捕捉技术设备简单便捷。

著录项

  • 公开/公告号CN104700433A

    专利类型发明专利

  • 公开/公告日2015-06-10

    原文格式PDF

  • 申请/专利权人 中国人民解放军国防科学技术大学;

    申请/专利号CN201510130564.1

  • 申请日2015-03-24

  • 分类号G06T7/20(20060101);

  • 代理机构11429 北京中济纬天专利代理有限公司;

  • 代理人胡伟华

  • 地址 410073 湖南省长沙市开福区德雅路109号

  • 入库时间 2023-12-18 09:18:47

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-04-27

    授权

    授权

  • 2015-07-08

    实质审查的生效 IPC(主分类):G06T7/20 申请日:20150324

    实质审查的生效

  • 2015-06-10

    公开

    公开

说明书

技术领域

本发明涉及电子信息学科学领域,特别是基于视觉的实时人体全身体运动捕捉方法及其 系统。

背景技术

人体运动分析是当前计算机图形学和计算机视觉研究的热门问题之一。其原因在于人体 运动数据在许多领`e娱乐和人机交互领域。例如,在许多视频游戏或计算机动画种,人体运 动数据常被用来驱动虚拟角色,使得虚拟角色的动作自然逼真;对人体运动如手势的跟踪识 别,可将人体姿势、手势等动作转化为一定的计算机命令,从而作为一种人机交互的方式; 第三类主要应用是在医疗和体育方面,例如步态分析是医学治疗中对人体动作、身体力学机 能、以及肌肉活动能力等观察和分析的一种方法,其核心在于对观察对象的关节位置、姿势 等系统观测和评估;在体育训练中,运动分析技术也常常用来帮助教练与运动员分析训练运 动中的情况,用以提高运动水平。

通过人眼观察、摄像或摄影等方式可以对人体运动进行分析。但是,要获得准确定量的 人体运动数据,只有采用专门的动作捕捉设备。当前,动作捕捉设备主要分为三类,第一类 是光学传感捕捉设备,即通过摄像捕获到穿戴设备上的标志点的运动轨迹,然后分析计算出 人体的关节运动数据;第二类是机械捕捉设备,其通过直接测量人体关节角度等数据,一般 需要被测量者穿戴上类似于骨架结构的机械测量设备;第三类是电磁传感捕捉设备,即采用 电磁传感器测量和计算人体关节角度等数据,也需要穿戴特制的电磁传输和接收设备或标志。 上述动作捕捉设备都需要人体对象穿戴上复杂的传感标志设备,这有时候会对人体对象的运 动产生限制或影响;并且这些设备需要昂贵的配套计算和分析设备,设备总体价格非常昂贵。 这是很多有动作捕捉需求的一般用户无法承受的。这促使人们寻找更加便宜而方便的动作捕 捉技术。

近几年,在计算机视觉和计算机图形学领域,无标识的运动捕捉技术成为研究热点。无 标识运动捕捉即采用非接触的基于图像的方法,从图像中直接计算出人体对象的姿态运动数 据,从而不再需要传统动作捕捉技术所必要的穿戴设备,达到快捷、方便的目的。然而,从 图像直接恢复三维人体姿态存在以下困难:1)人体三维姿态运动是高维度的,包含至少30 个以上自由度;而图像数据是二维的,由图像得到观测数据由于光照、运动模糊或摄像机轻 微抖动等因素影响往往包含噪声,并且其与人体三维姿态往往是存在复杂的非线性关系;2) 人体的形体尺寸各异,并且姿态运动是无约束的,难以建立准确的动态模型或对其进行准确 的预测,这对姿态估计和人体建模都带来很大挑战;3)人体在运动过程中,各肢体常常会存 在遮挡或紧密接触,这种自遮挡在二维图像中往往造成观测数据的奇异,从而有可能造成姿 态估计的奇异值。为了使得问题简单,当前几乎所有方法会对人体对象的运动、捕捉环境以 及摄像机等因素加以某些限制。比如会要求捕捉环境中只有单个人体,只限在室内环境,且 背景简单、光照可控。

与单摄像机方法相比,采用多摄像机的方法能够更好的处理自遮挡、奇异值等问题,能 够获得更高的精度和稳定性。虽然有多种多摄像机方法,但是很少有方法能够获得与传统基 于标识的动作捕捉技术相匹配的性能,其在人体跟踪的精度、稳定性和实时性方面都要差得 比较多。因此,研究能够获得更高精度、具有更好的稳定性和实时性的无标识运动捕捉方法 具有重要的理论和应用价值。

发明内容

本发明公开了一种基于视觉的实时人体全身体运动捕捉方法及其系统,该方法能够通过 非接触的计算机视觉方法,无须额外的穿戴标识设备,可实现对人体全身骨架姿态数据实时 获取并实时对虚拟角色驱动。

本发明的技术方案是:

一种基于视觉的实时人体全身体运动捕捉方法,其特征在于,包括以下步骤:

S1:多摄像机同步拍摄获取人体对象视频图像;

S2:多像机视频图像数据中重建三维形体数据;

通过对获取的多摄像机图像进行处理,重建出人体三维点云和三维光流;重建三维点云 采取计算机视觉中基于轮廓的三维重建方法;重建三维光流采用基于二维光流重建三维光流 场的方法;

S3:运动捕捉初始化;将三维人体模型匹配到初始时刻对应的人体对象三维形体数据, 使得三维人体模型的尺寸和姿态与初始时刻人体对象的尺寸和姿态相符;具体包括下面两个 步骤:

S3.1:三维形体重建和三维人体模型:采取计算机视觉中基于轮廓的三维重建方法,重 建出人体对象点云或体块数据;设计或由第三方图形软件比如Maya获得一种尺寸、姿态可调 的三维虚拟人体模型;

S3.2:采用一种基于模型的姿态和尺寸估计方法,将人体模型准确的匹配到重建出的三 维人体形态数据上,使得虚拟人体模型以相同的姿态和相近的形体尺寸呈现;

S4:三维骨架姿态估计和跟踪;具体包括下面三个步骤:

S4.1:基于一种随机搜索方法的姿态估计:综合运用前一时刻姿态估计结果、人体模型 及运动模型,采用一种生成采样的随机搜索方法,从随时间变化的人体动态姿态的近似概率 分布模型中把当前时刻的姿态估计出来;

S4.2:基于局部优化的姿态参数修正:对由步骤S4.1中姿态估计的结果,采用一种局部 优化方法,对局部姿态参数进行修正;

S4.3:姿态数据平滑处理:对一定时间窗口的姿态数据进行平滑处理,对异常的姿态参 数进行修正,使得获取的姿态运动数据无跳跃或震颤异常;

S5:由获得的姿态运动数据驱动虚拟角色同步运动;

将获得姿态运动数据通过插件直接由第三方软件进行角色驱动,达到虚拟角色与人体对 象实时同步的效果。

本发明中,步骤3.2的具体步骤如下:

S3.2.1、采用分等级优化的方法,先后对上身、左右下肢、左右上肢、头部进行匹配, 具体过程如下:首先对躯干的位置和方位参数进行估计,包括三个位置和三个旋转参数;然 后对头部、大腿和上臂关节参数进行估计;最后对小腿和下臂的关节参数进行估计;

其中对躯干的位置(x0,y0,z0)和方位参数估计采用如下方法:

a1、对重建的人体点云通过切片的方法检测得到躯干部位对应的点云集合;其中切片方 法是指以一定的采样间隔获取三维点云在垂直于躯干平面或竖直平面上的点集合;

b1、计算所找到的点云集合的重心位置

x=ΣxiN

y=ΣyiN

z=ΣziN

c1、设为(x0,y0,z0)的初始值,进行位置(x0,y0,z0)和方位参数和躯干 部位的尺寸估计,具体步骤为:首先保持(x0,y0,z0)以初始值和尺寸参数不变,采用 基于粒子群优化方法使得残差最小,得到然后保持和尺寸参数不变,继 续进行残差优化估计得到(x1′,y1′,z1′);之后保持和(x1′,y1′,z1′)不变,估计得到新的尺寸 参数;如此往复,直到各参数数值稳定;

其中对人体某部分匹配时,采用迭代优化的方法,具体为:

a)固定模型尺寸参数,设前一级的匹配姿态结果作为初始姿态,随机采样一部分模型表 皮点作为匹配点;假设随机获得的模型点集合为Mn={pn,i|i=1,2,…,mn},其中pn,i为身 体部分n的随机模型点,mn为身体部分n的采样点个数;

b)对任意随机模型点,找到对应的最近距离的重建三维点,以所有点对应的距离之和作 为残差;即求解如下方程:

X^n=argminXnΣpn,jMn||pn,i-yn,i*||2

其中为找到的对应于pn,i的最近三维重建点;

c)采用基于粒子群优化的全局搜索算法进行迭代优化,使得残差值趋近于最小的稳定值; 为使得优化可收敛,引入以下权重约束:

λn,i=1yn,i*pn,iλ(k)yn,i*{pn,j|j=1,...,k}

上式中λ(k)为以k(k>1)为变量的权重函数,k越大,权重值也越大,可简单设为线性 函数,其中表示对应关系,上述问题变为:

X^n=argminXnΣpn,jMnλn,i||pn,i-yn,i*||2

d)固定上一步得到姿态参数,以尺寸参数作为变量,迭代优化得到新的尺寸参数;

e)如此迭代直至各参数不再变化,得到整个人体姿态和尺寸参数;

S3.2.2、对整个人体姿态参数进行局部修正,最终得到准确的尺寸和姿态参数;所述局 部姿态修正是指:由上述分级姿态估计方法得到整个人体姿态和尺寸参数后,保持上身躯干 位置和方位参数和其他关节参数不变,对左大腿和小腿对应的6个旋转参数以其现有数值作 初始值,以整体作为变量,按上述步骤a)-e)参数估计方法重新估计,同样的方法对其他三 个肢体右下肢、左上肢以及右上肢的关节参数进行修正。

本发明中,步骤S4.1具体包括以下步骤:

a)假设在时刻t-1姿态分布p(st-1|z1:t-1),p(st-1|z1:t-1)表示t-1时刻的姿态st-1的 后验概率分布函数,其可由不带权重的粒子集合来近似表示姿态分布 p(st-1|z1:t-1)可由不带权重的粒子集合来近似表示,由t-1的姿态分布采样通过 多维高斯动态模型获得t时刻的期望姿态采样粒子集合即其 中Σ的标准差向量为p;

b)初始化t时刻采样粒子集合:对i=1,…,N,pn,i←nb(i,K);其中obj(x)表示目标函数,pi为粒子i的所有历史时刻中目标值最优的位置点,即 满足nb(i,K)表示邻域最优函数,通过它能把以i为中心粒子及其周围的K-1个 粒子的集合中最优的历史时刻位置点找出来;

c)按下述步骤进行迭代搜索M次:i)设g=0;ii)对i=1,…,N,如果 则对i=1,…,N,更新邻域最优值pn,i←nb(i,K);iii)对 i=1,…,N,其中u=0.5(pi+pn,i),Σb为对角协方差矩阵,对应的标准差向 量为|pi-pn,i|;

d)把邻域最优粒子值集合作为新的采样粒子位置,每个粒子都根据似然函数赋予 新的值,即得到带权重粒子集合其中其中为 观测函数即似然函数;

e)把两类粒子集合合并得到数目为2N的粒子集合: {(stj,12N)}j=12N={(sti,12N)}i=1N{(st*i,πt*i)}i=1N;

f)计算修正系数λtj=ft(stj)/gt(stj),1j2N;

g)计算最终权重并规则化使得

h)计算作为最终姿态估计结果;

i)对集合进行重采样得到新的集合为下一时刻姿态估计作准备。

本发明中,步骤S4.2中对局部姿态参数优化修正,其是对人体的肢体部分包括上身躯干、 颈\头部、左右上臂、左右前臂、左右大腿、左右小腿的姿态参数有选择的进行修正;对人体 某部分k(人体共分10个部分即k=1,…,10),假设其在由步骤S4.1恢复的姿态下所包含的 一组三维重建点与人体模型点的对应集合为则得到以下优化问题:

argθj*min12ΣkBjΣi||pik(θj*)-vik||2

其中为对应于人体某部分k的姿态参数,表示受影响的人体部分;

求解上述优化问题采用LM等梯度优化算法。

本发明提供一种基于视觉的实时人体全身体运动捕捉系统,该系统包括:

a)多摄像机视频图像同步拍摄装置:用于同步拍摄获取感兴趣三维空间及人体对象的视 频图像并实时传输到计算装置上;

b)三维形体重建计算与显示装置:用于对实时获得的多摄像机视频图像进行处理,从中 实时重建出人体三维形体,并进行颜色渲染;把对重建的三维形体在显示装置上进行显示, 同时也能对摄像机场景中物体以虚拟模型显示;

c)三维人体姿态实时估计与跟踪计算装置:用于从重建的三维形体图像数据中实时计算 以恢复出三维人体全身体姿态运动信息;

d)运动数据驱动虚拟角色同步运动显示装置:用于以恢复出的全身体骨架姿态数据实时 驱动虚拟三维角色,使之与人体对象做一样的运动。

该系统中,所述多摄像机视频图像同步拍摄装置包括数目不少于9个的摄像机,各摄像 机以合适位姿角度安装围绕在长宽高各能达到2-3米的立体空间周围,各摄像机均能够对该 立体空间完整成像,并能够同步拍摄;多摄像机视频图像同步拍摄装置还包括配套的数据线、 图像卡等视频图像采集和传输设备以及用于摄像机标定的辅助设备;

该系统中,三维形体重建计算与显示装置包括一台支持GPU计算的1#计算机及其外设设 备;该1#计算机性能支持连接多个PCI图像采集卡工作。

该系统中,所述三维人体姿态实时估计与跟踪计算装置包括一台支持GPU计算的2#计算 机及其外设设备。

该系统中,运动数据驱动虚拟角色同步运动显示装置包括一台与2#计算机连接的显示 器。

与现有技术相比,本发明所具有的有益效果为:

本发明所公开的基于视觉的实时人体全身运动捕捉系统和方法通过非接触的计算机视 觉方法,无须额外的穿戴标识设备,可实现了对人体全身骨架姿态数据实时获取并实时对虚 拟角色驱动,相对于一般的动作捕捉技术设备简单便捷。

附图说明

图1本发明一种基于视觉的实时人体全身体运动捕捉方法的总流程图;

图2人体全身体骨架模型及运动定义的示意图;

图3多摄像机同步拍摄装置示例图;

图4三维数据重建示例图;

图5三维骨架姿态估计和跟踪的流程图。

具体实施方式

以下结合附图对本发明的具体实施例进行详细描述,但不构成对本发明的限制。

本发明的人体全身体运动捕捉系统和方法主要是面向单个人体对象、室内环境下的运动 捕捉。图1给出了本发明动作捕捉方法的五个步骤组成:多摄像机同步拍摄获取人体对象视 频图像(101)、多像机视频图像数据中重建三维形体数据(三维点云、三维光流)(102)、运 动捕捉初始化(103)、三维骨架姿态估计和跟踪(104)、由获得的姿态运动数据驱动虚拟角 色同步运动(105)。

人体全身体运动定义为人体运动过程中三维人体的骨架姿态运动,骨架姿态是指一组可 以描述人体位置和主要关节姿态的参数。如图2所给示例,此骨架模型中包含15个关节,各 关节及对应的姿态参数为:躯干主关节(207)包含3个全局位置参数(用以描述人体在三维 空间中的位置)和3个全局旋转参数(用以描述人体在三维空间的角度)、躯干背关节(203) 包含3个旋转参数(用以描述相对于关节207的角度关系)、颈椎关节(201)包含3个旋转 参数(用以描述相对于关节203的角度关系)、左右上臂关节(202、210)各包括3个旋转参 数(分别用以描述相对于关节203的角度关系)、左右肘关节(204、211)各包含3个旋转参 数(用以描述分别相对于关节202、210的角度关系)、左右手腕关节(205、212)包含3个 旋转参数(用以描述分别相对于关节204、211的角度关系)、左右大腿关节(206、213)各 包含3个旋转参数(用以描述分别相对于关节207的角度关系)、左右膝关节(208、214)各 包含3个旋转参数(用以描述分别相对于关节206、213的角度关系)、左右脚腕关节(209、 215)各包含3个旋转参数(用以描述分别相对于关节208、214的角度关系)。

多摄像机同步拍摄获取人体对象视频图像(101):由多摄像机视频同步拍摄装置完成。 图3给出了多摄像机同步拍摄装置的示例。主要包括:9个以上彩色摄像机(301)、方位标 定板(303)、显示器(304)、计算机(305)以及图像采集设备如数据线、采集卡(306)等。 多摄像机固定安装在围绕舞台空间的合适位置上,并以合适角度对准舞台空间,以保证各摄 像机画面可以完整覆盖舞台空间成像。舞台空间是指长宽均3米左右的三维空间,人体对象 (302)在舞台空间内做运动。各摄像机通过数据线、交换机等传输设备与计算机(305)内 的图像采集卡(306)相连接,图像采集卡要求带宽足够,计算机要求支持足够多的图像采集 卡。为了便于要求后续处理,要求环境光照足够且稳定,背景环境简单,无大的动态物体。

多摄像视频图像数据重建三维形体数据(三维点云、三维光流)(102):通过对获取的多 摄像机图像进行处理,重建出人体三维点云和三维光流。重建三维点云可采取计算机视觉中 基于轮廓的三维重建方法(现有技术)。重建三维光流可采用基于二维光流重建三维光流场的 方法(现有技术)。在本发明中,三维点云是指人体最外面的表皮三维点,而体内点不参与渲 染和后续计算。三维光流是指某些三维点云中的三维点其在下一刻时间的运动方向和运动大 小的描述,采用三维箭号表示,其中箭号起始点为当前时刻的重建三维点,箭号指示方向表 示三维点运动的方向,箭号长度表示运动大小。不是所有三维点都具有有效的三维光流,需 要进行剔除无效三维光流。通过设定简单的大小阈值约束,就能剔除部分无效三维光流。图 4给出了三维点云和三维光流重建的示例。

运动捕捉初始化(103):初始化的目的是为了获得匹配的人体模型和初始三维姿态,为 跟踪提供初始值和模型。主要包括两个步骤:a)三维形体重建和人体模型:采取计算机视觉 中基于轮廓的三维重建方法,重建出人体对象点云或体块等数据;设计或由第三方图形软件 获得一种尺寸、姿态可调的三维虚拟人体模型;b)采用一种基于模型的姿态和尺寸估计方法, 将人体模型准确的匹配到重建出的三维人体形态数据上,使得虚拟人体模型以相同的姿态和 相近的形体尺寸呈现。其中基于模型的姿态和尺寸估计方法的具体步骤在技术方案中有具体 的介绍,这里不再赘述。为了简单化,可要求人体对象以特定的初始姿态站立。

三维骨架姿态估计和跟踪(104):图5给出了三维骨架姿态估计和跟踪方法流程。其主 要包括以下三个步骤:

1)基于一种随机搜索方法的姿态估计:综合运用前一时刻姿态估计结果、人体模型及运 动模型,采用一种生成采样的随机搜索方法,从随时间变化的人体动态姿态的近似概率分布 模型中把当前时刻的姿态估计出来;此随机搜索方法适合并行化计算;目标函数与似然函数 是根据三维重建数据与人体模型抽样点数据之间的对应关系建立的。目标函数的-log即为似 然函数。似然函数包括基于重建三维点与人体模型对应之间距离最短的观测值及基于重建三 维点颜色与人体模型对应之间颜色分布相似的观测值等。三维重建数据包括三维形体重建点 云和三维光流。具体包括以下步骤:

a)粒子预测(501):假设在时刻t-1姿态分布p(st-1|z1:t-1)可由不带权重的粒子集合 来近似表示,由t-1的姿态分布采样通过多维高斯动态模型获得t时刻的期望姿 态采样粒子集合即其中Σ的标准差向量为p。

b)粒子集合初始化(502):初始化t时刻采样粒子集合:对i=1,…,N,pn,i←nb(i,K);其中obj(x)表示目标函数,pi为粒子i的所有历史 时刻中目标值最优的位置点,即满足nb(i,K)表示邻域最优函数,通过它可以把 以i为中心粒子及其周围的K-1个粒子的集合中最优的历史时刻位置点找出来。

c)优化搜索(503):按下述步骤进行迭代搜索M次:i)设g=0;ii)对i=1,…,N, 如果则对i=1,…,N,更新邻域最优值pn,i←nb(i,K);iii) 对i=1,…,N,其中u=0.5(pi+pn,i),Σb为对角协方差矩阵,对应的标准差 向量为|pi-pn,i|。

d)邻域最优粒子选择与权重更新(504):把邻域最优粒子值集合作为新的采样 粒子位置,每个粒子都根据似然函数赋予新的值,即得到带权重粒子集合其中 其中为观测函数(或似然函数)。

e)粒子合并与权重修正(505):把两类粒子集合合并得到数目为2N的粒子集合: {(stj,12N)}j=12N={(sti,12N)}i=1N{(st*i,πt*i)}i=1N;

f)权重修正:计算修正系数1≤j≤2N;计算最终权重 并规则化使得

g)得到随机搜索估计结果(506):计算作为最终姿态估计结果;

h)对集合进行重采样得到新的集合为下一时刻姿态估计作准 备。

2)基于局部优化的姿态参数修正(507):对由步骤1)姿态估计的结果,采用一种局部 优化方法,对局部姿态参数进行修正;主要是对局部姿态参数优化修正,其主要思想是对人 体的肢体部分包括上身躯干、颈\头部、左右上臂、左右前臂、左右大腿、左右小腿的姿态参 数有选择的进行修正。对人体某部分k(人体共分10个部分即k=1,…,10),假设其在由步骤 2)恢复的姿态下所包含的一组三维重建点与人体模型点的对应集合为则得到以下优化问题:

argθj*min12ΣkBjΣi||pik(θj*)-vik||2

其中为对应于人体某部分k的姿态参数,表示受影响的人体部分。求 解上述优化问题可采用LM等梯度优化算法。

3)姿态数据平滑处理(508):对一定时间窗口的姿态数据进行平滑处理,对异常的姿态 参数进行修正,使得获取的姿态数据无跳跃或震颤等异常。

由获得的姿态运动数据驱动虚拟角色同步运动(105):获取的骨架姿态数据可以转化为 标准格式如BVH等运动数据。比如,BVH一种通用的人体特征动画运动数据格式,广泛地被 当今流行的各种动画制作软件支持,数据包含角色的骨骼和肢体关节旋转数据。本发明支持 BVH等多种流行的运动数据格式。将获得运动数据通过插件直接由第三方软件如 MotionBuilder进行角色驱动,可达到虚拟角色与人体对象实时同步的效果。

尽管上面是对本发明具体实施方案的完整描述,但是可以采取各种修改、变体和替换方 案。这些等同方案和替换方案被包括在本发明的范围内。因此,本发明的范围不应该被限于 所描述的实施方案,而是应该由所附权利要求书限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号