首页> 中国专利> 基于自监督时空运动先验的单视角遮挡人体运动重建方法

基于自监督时空运动先验的单视角遮挡人体运动重建方法

摘要

本发明提供了一种基于自监督时空运动先验的遮挡人体运动序列重建方法,包括以下步骤:S1.人体运动合成与表示;S2.遮挡人体时空先验网络构建;S3.遮挡人体时空先验网络训练;S4.三维运动重建网络构建;S5.三维运动重建网络训练;S6.全局位置估计;S7.实时单视角遮挡人体运动重建。本发明可以快速合成大量遮挡数据,且不影响模型在真实数据上的泛化能力,解决了现有方法对真实遮挡人体数据的强烈依赖。

著录项

  • 公开/公告号CN114926594A

    专利类型发明专利

  • 公开/公告日2022-08-19

    原文格式PDF

  • 申请/专利权人 东南大学;

    申请/专利号CN202210684494.4

  • 发明设计人 王雁刚;黄步真;束愿;

    申请日2022-06-17

  • 分类号G06T17/00(2006.01);G06T7/10(2017.01);G06T7/73(2017.01);G06T7/90(2017.01);G06N3/04(2006.01);G06V10/774(2022.01);

  • 代理机构南京众联专利代理有限公司 32206;

  • 代理人张天哲

  • 地址 210096 江苏省南京市玄武区四牌楼2号

  • 入库时间 2023-06-19 16:26:56

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-06

    实质审查的生效 IPC(主分类):G06T17/00 专利申请号:2022106844944 申请日:20220617

    实质审查的生效

说明书

技术领域

本发明涉及计算机视觉及三维视觉领域,特别涉及一种基于自监督时空运动先验的单视角遮挡人体运动重建方法。

技术背景

人体运动重建在全息通讯、行为分析、动作捕捉等应用中有着十分重要的作用。随着人工智能等相关技术的不断发展,基于单个RGB相机的单视角人体运动重建由于其成本低廉、部署方便的优势,具有广泛的市场需求。然而,现有单视角的方法都难以实现遮挡情况下的人体运动重建。单视角遮挡人体运动重建已然成为一个亟待被解决的问题。目前针对遮挡问题的人体运动重建方案面临着两个主要难题:一是缺少足够的遮挡三维人体运动数据,难以通过深度学习的方式训练一个泛化性能较好的模型;二是单视角图像的深度缺失和遮挡引起的信息欠定导致了严重的歧义性,网络模型难以回归可靠、准确的三维运动。因此,通过自监督方法,利用合成遮挡人体运动数据学习遮挡人体时空运动先验知识,建模关节点层面的时空特征,实现遮挡人体运动重建是一个具有现实意义和挑战性的问题。

发明内容

发明目的:本发明提出一种基于自监督时空运动先验的单视角遮挡人体运动序列重建方法,利用真实二维人体数据合成遮挡运动序列,构建训练数据集;通过构建一个基于膨胀卷积和Transformer的人体运动时空先验编码器,在合成二维训练数据中学习遮挡人体运动的局部关节点层面和全局运动层面的时空特征。进而将训练完成的人体运动时空先验编码器用于辅助三维运动重建网络训练。在实时单视角遮挡人体运动重建时,从单视角遮挡人体视频中获取二维遮挡人体运动的关节点图,将二维遮挡人体运动的关节点图送入所训练完成的网络进行前向推理和全局位置估计,即可实现实时的遮挡人体三维运动重建。

技术方案:本发明所述的一种基于自监督时空运动先验的遮挡人体运动序列重建方法,包括以下步骤:

S1.人体运动合成与表示:为了克服遮挡人体数据集制作成本高昂的问题,本发明提出二维遮挡人体运动的关节点图表示和人体遮挡数据生成方法快速合成大量遮挡数据,且不影响模型在真实数据上的泛化能力。通过在网络视频中使用实例分割获取遮挡物,并将遮挡物随机覆盖在不带遮挡的人体数据集中的图片上实现合成遮挡,在二维完整人体运动的关节点图上生成二维遮挡人体运动的关节点图,用于网络训练。

S2.遮挡人体时空先验网络构建:遮挡二维人体关节点存在高度歧义性,难以直接用于估计准确的三维完整人体运动。本发明构造一个包含局部关节点层面时空特征提取网络和全局运动层面时空特征提取网络的编码器分别提取不同层面的时空特征。此外构建一个由全连接网络组成的编码器,从编码器估计的编码中回归二维完整人体运动的关节点图。

S3.遮挡人体时空先验网络训练:将合成的二维遮挡人体运动的关节点图作为输入,与之对应的不带遮挡的二维完整人体运动的关节点图作为监督,以自监督的方式训练S2构建的遮挡人体时空先验网络。自监督训练此神经网络直至收敛,学习遮挡二维人体运动的先验知识。

S4.三维运动重建网络构建:构建与S2中遮挡人体时空先验网络编码器相同的网络作为编码器,以全连接层和两个Transformer模块作为解码器,用于从二维遮挡人体运动的关节点图中估计三维完整人体运动图。

S5.三维运动重建网络训练:将步骤S3中训练完成的遮挡人体时空先验网络编码器的参数作为预训练参数,赋值给S4构建的三位运动重建网络的编码器,使得三维运动重建网络获得遮挡二维人体运动的先验知识。进一步将合成的二维遮挡人体运动的关节点图作为输入,三维完整人体运动图作为监督,进行网络训练。训练过程中,同时对编码器参数进行微调。训练直至收敛。

S6.全局位置估计:从S4中估计得到的三维完整人体运动图中采样得到三维人体运动序列。由于采样得到的三维人体运动序列处于局部坐标系,为了获取带有绝对位置的三维人体运动序列,本发明使用三维人体序列骨架的关节点位置和输入的遮挡二维关节点位置构建最小二乘函数,估计全局平移。并将估计得到的平移应用于三维人体运动序列。

S7.实时单视角遮挡人体运动重建:完成网络训练后。利用单个RGB相机构建单视角运动捕捉系统。输入一段单视角相机采集到的人体运动视频序列,使用现有开源的二维关节点检测方法对每帧图片检测关节点位置及其置信度,得到二维遮挡人体运动的关节点图。通过三维运动重建网络估计三维完整人体运动图。并利用步骤S6中的方法获取带绝对位置的三维人体运动序列。实现单视角遮挡人体三维运动重建。全局人体运动序列可以进行进一步蒙皮,获得带形变的人体网络模型。

进一步地,步骤S1的具体方法包括:

S11.随机遮挡物获取:通过Mask-RCNN在网络视频中使用实例分割获取遮挡物掩膜和RGB图片,用于模拟遮挡。

S12.二维完整人体运动的关节点图获取:从人体数据集中提取人体二维运动序列,其中每帧的人体二维运动用K个人体关节点的坐标表示。对于F帧具有K个关节点的人体二维运动序列,为了便于网络计算,对所有关节点坐标(x,y)首先减去根节点坐标(x

S13.二维遮挡人体运动的关节点图获取:由于人体运动的关节点图表示不受图像外观的影响,通过在非遮挡的人体图片上添加遮挡物可以得到遮挡的人体运动数据。计算骨架包围框和S11中获得的遮挡物之间的交并比,并使交并比在X

S14.三维完整人体运动图获取:从现有人体数据集提取人体三维运动序列,其中每帧的人体三维运动用一个骨架蒙皮的三维人体模型进行表示。对于F帧具有N个关节点的人体三维运动序列,三维人体模型的骨架姿态使用关节点旋转表示,通过关节点旋转驱动人体网格变形,存储在三维完整人体运动图I

进一步地,步骤S2的具体方法为:

S21.由于在不同的阶段分别考虑时序关系和空间关系会导致信息的丢失,因此构建的编码器包含2个模块:局部关节点层面时空特征提取网络,全局运动层面时空特征提取网络,来分别提取不同层面的时空特征。局部时空关系模块用于建模局部时空特征,其包含4个卷积层,其中前3个卷积层分别是3个膨胀系数为1,2,5的卷积层。将三个膨胀卷积层得输出进行拼接后经过最后一层卷积层融合时空特征。

S22.由于卷积层在时序连续性方面的性能有限,进一步构建全局运动层面时空特征提取网络来建模全局时空特征。全局运动层面时空特征提取网络包括全局空间关系模块和全局时序关系模块,并采用Transformer网络结构。对第一个模块的输出添加空间嵌入,对第二个模块的输出添加时序嵌入。

S23.构建一个由全连接网络组成的编码器,从编码器估计的编码中回归二维完整人体运动的关节点图。

进一步地,步骤S3的具体方法为:

S31.为了增强网络的泛化性能,对训练数据进行数据增广。具体策略包括:1)镜像翻转。由于人体具有左右对称性,通过将对称关节的旋转角度互换实现人体数据的倍增;2)以不同的速率采样。通过对原始人体运动序列用不同的采样速率采样获得新的人体运动序列;3)倒序采样。颠倒原始人体运动序列的先后顺序作为新的运动序列。

S32.将合成的二维遮挡人体运动的关节点图作为输入,通过遮挡人体时空先验网络输出二维完整人体运动的关节点图。对遮挡人体时空先验网络输出的二维完整人体运动的关节点图使用二维完整人体运动的关节点图的真值进行监督。L1损失作为约束,公式如下:

其中I

此外,进一步用平滑项对输出二维完整人体运动的关节点图进行约束:

其中

最终,遮挡人体时空先验网络的训练损失为:

L

其中ω

进一步地,步骤S4的具体方法为:

S41.构建与S2中遮挡人体时空先验网络编码器相同的网络作为编码器,以全连接层和两个分别用于估计时序关系和空间关系的Transformer模块作为解码器,用于从二维遮挡人体运动的关节点图中估计三维完整人体运动图。

进一步地,步骤S5的具体方法为:

S51.将步骤S3中训练完成的遮挡人体时空先验网络编码器的参数作为预训练参数,赋值给S4构建的三维运动重建网络的编码器,使得三维运动重建网络获得遮挡二维人体运动的先验知识。

S52.将合成的二维遮挡人体运动的关节点图作为输入,经过三维运动重建网络编解码后,输出三维完整人体运动图。对输出的三维完整人体运动图使用重构的L2损失进行约束,公式如下:

其中I

并且,使用一项额外的正则化约束来防止出现非正常的人体体型:

L

此外,进一步用平滑项对输出的三维完整人体运动图进行约束:

其中θ是从I

最终,三维运动重建网络的训练损失为:

L

其中ω

进一步地,步骤S6的具体方法为:

S61.从S4估计得到的三维完整人体运动图中采样得到三维人体运动序列。由于采样得到的三维人体运动序列处于局部坐标系,为了获取带有绝对位置的三维人体运动序列,使用三维人体序列骨架的关节点位置和输入的遮挡二维关节点位置构建最小二乘函数,估计全局平移。并将估计得到的平移应用于三维人体运动序列。构建如下最小二乘函数:

其中K是相机内参,P是二维遮挡人体运动的关节点图中采样恢复的人体二维关节点坐标,ω

进一步地,步骤S7的具体方法为:

S71.使用单个相机进行视频采集。用三脚架对相机进行固定,对受遮挡的人体进行采集。

S72.对步骤S71中采集到的视频序列使用现有开源的二维关节点检测方法对每帧图片检测关节点位置及其置信度。将关节点位置按照S13中的方法存储为一张二维关节点图。将置信度二值化,大于阈值X的值赋值为1,小于阈值X的值赋值为0,并将结果存储在F×N×1的置信度图中。将置信度图和二维关节点图相乘得到二维遮挡人体运动的关节点图。

S73.输入二维遮挡人体运动的关节点图,通过遮挡人体时空先验网络和三维运动重建网络输出重构的人体完整三维完整人体运动图。

S74.通过S61获得每个姿态的全局位置。最终,通过在骨架蒙皮的三维人体模型上增加平移参量得到含有绝对位置的人体三维运动。全局人体运动序列可以进行进一步蒙皮,获得带形变的人体网络模型。

有益效果:与现有技术相比,本发明的有益效果为:1、提出二维遮挡人体运动的关节点图表示和人体遮挡数据生成方法,可以快速合成大量遮挡数据,且不影响模型在真实数据上的泛化能力,解决了现有方法对真实遮挡人体数据的强烈依赖。2、利用合成数据和模型的自监督训练策略,训练二维遮挡人体时空运动先验,提升了遮挡运动重建的准确性。3、提出基于膨胀卷积的局部关节点时空特征提取网络和基于Transformer的全局运动层面时空特征提取网络,有效提取不同层面的时空特征,降低了遮挡二维人体运动的歧义性,提升了三维人体运动重建的准确性。4、本方法仅依赖单个RGB相机即可实现实时遮挡人体运动重建,部署方便,成本较低。

附图说明

图1是遮挡时空运动先验训练框架图;

图2是遮挡人体运动重建网络训练框架图;

图3是遮挡人体运动重建流程图;

图4是遮挡物示意图,其中,上一行为遮挡物图,下一行为遮挡物掩模图;

图5是合成遮挡示意图,其中,上一行为合成遮挡图,下一行为对应的原始图片;

图6是遮挡二维运动序列合成示意图,其中,左图为合成遮挡示意图,中间图为合成遮挡掩膜图,右图为二维遮挡人体运动关节点图;

图7是三维人体运动图示意图,其中,左图为三维人体完整运动图,右图为重建结果图;

图8是重建的三维运动经蒙皮后的结果图,其中,左列为原始图片,中间列为蒙皮结果渲染图,右列为不同视角的渲染结果图。

具体实施方式

下面结合附图对本发明作进一步详细描述。本发明所述的一种基于自监督时空运动先验的遮挡人体运动序列重建方法实现过程如下:

S11.随机遮挡物获取:如图4所示,通过Mask-RCNN在网络视频中使用实例分割获取遮挡物掩膜和RGB图片,用于模拟遮挡。

S12.从人体数据集中提取人体二维运动序列,其中每帧的人体二维运动用24个人体关节点的坐标表示。对于24帧具有24个关节点的人体二维运动序列,为了便于网络计算,对所有关节点坐标(x,y)首先减去根节点坐标(x

S13.二维遮挡人体运动的关节点图获取:由于人体运动的关节点图表示不受图像外观的影响,如图5所示,通过在非遮挡的人体图片上添加遮挡物可以得到遮挡的人体运动数据。如图6所示,计算骨架包围框和S11中获得的遮挡物之间的交并比,并使交并比在X

S14.从现有人体数据集提取人体三维运动序列,其中每帧的人体三维运动用一个骨架蒙皮的三维人体模型进行表示。对于24帧具有24个关节点的人体三维运动序列,三维人体模型的骨架姿态使用关节点旋转表示,通过关节点旋转驱动人体网格变形,存储在三维完整人体运动图I

S21.如图1所示,由于在不同的阶段分别考虑时序关系和空间关系会导致信息的丢失,因此构建的编码器包含2个模块:局部关节点层面时空特征提取网络,全局运动层面时空特征提取网络,来分别提取不同层面的时空特征。局部时空关系模块用于建模局部时空特征,其包含4个卷积层,其中前3个卷积层分别是3个膨胀系数为1,2,5的卷积层。将三个膨胀卷积层得输出进行拼接后经过最后一层卷积层融合时空特征。

S22.由于卷积层在时序连续性方面的性能有限,进一步构建全局运动层面时空特征提取网络来建模全局时空特征。全局运动层面时空特征提取网络包括全局空间关系模块和全局时序关系模块,并采用Transformer网络结构。对第一个模块的输出添加空间嵌入,对第二个模块的输出添加时序嵌入。

S23.构建一个由全连接网络组成的编码器,从编码器估计的编码中回归二维完整人体运动的关节点图。

S31.由于数据增广在网络训练中有着十分重要的作用,对现有数据采用数据增广的方法。具体策略包括:1)镜像翻转。由于人体具有左右对称性,通过将对称关节的旋转角度互换实现人体数据的倍增;2)以不同的速率采样。通过对原始人体运动序列用不同的采样速率采样获得新的人体运动序列;3)倒序采样。颠倒原始人体运动序列的先后顺序作为新的运动序列。

S32.将合成的二维遮挡人体运动的关节点图作为输入,通过遮挡人体时空先验网络输出二维完整人体运动的关节点图。对遮挡人体时空先验网络输出的二维完整人体运动的关节点图使用二维完整人体运动的关节点图的真值进行监督。L1损失作为约束,公式如下:

其中I

此外,进一步用平滑项对输出二维完整人体运动的关节点图进行约束:

其中

最终,遮挡人体时空先验网络的训练损失为:

L

其中ω

S41.构建与S2中遮挡人体时空先验网络编码器相同的网络作为编码器,以全连接层和两个分别用于估计时序关系和空间关系的Transformer模块作为解码器,用于从二维遮挡人体运动的关节点图中估计三维完整人体运动图。

S51.将步骤S3中训练完成的遮挡人体时空先验网络编码器的参数作为预训练参数,赋值给S4构建的三维运动重建网络的编码器,使得三维运动重建网络获得遮挡二维人体运动的先验知识。

S52.如图2所示,将合成的二维遮挡人体运动的关节点图作为输入,经过三维运动重建网络编解码后,输出三维完整人体运动图。对输出的三维完整人体运动图使用重构的L2损失进行约束,公式如下:

其中I

并且,使用一项额外的正则化约束来防止出现非正常的人体体型:

L

此外,进一步用平滑项对输出的三维完整人体运动图进行约束:

L

其中θ是从I

最终,三维运动重建网络的训练损失为:

L

其中ω

S61.从S4估计得到的三维完整人体运动图中采样得到三维人体运动序列。由于采样得到的三维人体运动序列处于局部坐标系,为了获取带有绝对位置的三维人体运动序列,使用三维人体序列骨架的关节点位置和输入的遮挡二维关节点位置构建最小二乘函数,估计全局平移。并将估计得到的平移应用于三维人体运动序列。构建如下最小二乘函数:

其中K是相机内参,P是二维遮挡人体运动的关节点图中采样恢复的人体二维关节点坐标,ω

S71.使用单个相机进行视频采集。用三脚架对相机进行固定,对受遮挡的人体进行采集。

S72.如图3所示,输入步骤S71中采集到的视频序列,使用现有开源的二维关节点检测方法对每帧图片检测关节点位置及其置信度。将关节点位置按照S13中的方法存储为一张二维关节点图。将置信度二值化,设置阈值=0.6,大于阈值的值赋值为1,小于阈值的值赋值为0,并将结果存储在24×24×1的置信度图中。将置信度图和二维关节点图相乘得到二维遮挡人体运动的关节点图。

S73.输入二维遮挡人体运动的关节点图,通过遮挡人体时空先验网络和三维运动重建网络输出重构的人体完整三维完整人体运动图。

S74.通过S61获得每个姿态的全局位置。最终,如图8所示,通过在骨架蒙皮的三维人体模型上增加平移参量得到含有绝对位置的人体三维运动。全局人体运动序列可以进行进一步蒙皮,获得带形变的人体网络模型。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号