首页> 中国专利> 一种基于关键点运动估计的人体连续姿态估计方法

一种基于关键点运动估计的人体连续姿态估计方法

摘要

本发明公开了一种基于关键点运动估计的人体连续姿态估计方法,将运动估计块匹配算法运用于人体关键点跟踪,从而获得人体连续姿态结果,同时使用基于深度神经网络的人体姿态估计器不断对结果进行修正。本发明可实现对视频流中人体连续姿态的估计,其中人体姿态具体体现为视频帧中人体关键点的坐标位置。相比于完全依靠深度神经网络的姿态估计方法,本发明所提出的姿态估计方法具有帧率高、硬件要求低、识别结果具有时序连续特性的优点;相比完全依靠运动估计算法的姿态估计方法,本发明可修正积累误差,提高估计精度。

著录项

  • 公开/公告号CN114973399A

    专利类型发明专利

  • 公开/公告日2022-08-30

    原文格式PDF

  • 申请/专利权人 浙江大学;

    申请/专利号CN202210418358.0

  • 申请日2022-04-20

  • 分类号G06V40/20(2022.01);G06V20/40(2022.01);G06V10/82(2022.01);G06T7/238(2017.01);H04N19/176(2014.01);

  • 代理机构杭州天勤知识产权代理有限公司 33224;

  • 代理人沈金龙

  • 地址 310058 浙江省杭州市西湖区余杭塘路866号

  • 入库时间 2023-06-19 16:36:32

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-16

    实质审查的生效 IPC(主分类):G06V40/20 专利申请号:2022104183580 申请日:20220420

    实质审查的生效

说明书

技术领域

本发明涉及视频图像处理技术领域,特别是涉及一种基于关键点运动估计的人体连续姿态估计方法。

背景技术

近年来,图像/视频中的人体姿态估计一般使用深度神经网络来实现。然而,深度神经网络对计算机硬件的要求较高、对计算资源的消耗较大,虽然计算结果精度较高,但是计算速度较慢、实时性较差,这些缺陷限制了人体姿态估计的应用场合,使其推广难度增大。除此之外,使用深度神经网络估计视频中的人体姿态,本质上还是将视频拆分为每一帧图像分别进行计算,没有利用到视频中每一帧图像之间的人体姿态信息具有连续性这一先验知识,这样导致每一帧的信息是独立和割裂的,容易出现跳变。

基于以上深度神经网络提取人体姿态方案,有如下参考文献:

(1)授权公告号为CN110334607B,发明名称为“一种视频人体交互行为识别方法及系统”的发明专利中,使用YOLOv3网络进行行人检测,所述YOLOv3网络属于一种卷积神经网络。

(2)公开号为CN112686097A,发明名称为“一种人体图像关键点姿态估计方法”的发明专利申请中,通过训练获得能够对人体图像进行姿态估计以得到人体固件关键点图像的深度神经网络模型。

(3)公开号为CN110638461A,发明名称为“一种在电动病床上人体姿态识别方法及系统”的发明专利申请中,利用Stacked Hourglass算法识别人体姿态。Stacked Hourglass属于一种深度神经网络。

(4)公开号为CN110197123A,发明名称为“一种基于Mask R-CNN的人体姿态识别方法”的发明专利申请中,利用Mask R-CNN网络提取姿态特征。Mask R-CNN网络属于一种深度神经网络。

(5)公开号为CN109919122A,发明名称为“一种基于3D人体关键点的时序行为检测方法”的发明专利申请中,利用多层CNN网络提取人员目标边界框,通过过身体部位定位和关联程度分析获取2D关键点坐标,然后构造关键点回归网络,实现2D关键点到3D关键点的映射。所述CNN及关键点回归网络均属于深度神经网络。

在广义的图像处理与视频编码领域,有H.264、H.265等业内公认的编码标准和协议。在这些标准中,运动估计的最终目的是实现对视频中连续图片帧的压缩,它是通过将整幅图片分割为许多小区域(宏块)、然后对这些宏块进行最相似区域搜索估计来实现的。上述基于块匹配的运动估计算法称为块匹配算法。

发明内容

本发明针对现有技术中使用深度神经网络进行人体姿态估计时存在的上述不足,提出一种融合深度神经网络人体姿态估计算法与块匹配运动估计算法的人体连续姿态估计算法。所提出算法可以充分发挥两种技术路线的优势,同时规避和补齐其劣势,实现又快又准的人体连续姿态估计。

一种基于关键点运动估计的人体连续姿态估计方法,用于进行估计的系统包括两种估计器,

估计器1:预训练好的深度神经网络姿态估计器,

估计器2:基于视频编码H.264标准的运动估计器,

所述基于关键点运动估计的人体连续姿态估计方法包括三个阶段:

第一阶段:系统开始运行后,对于首帧导入的视频帧,作为关键帧I

第二阶段:在第一阶段估计器1运算完毕后,系统紧接着采集到的下一帧视频帧I

第三阶段:待第二阶段中估计器1运算完毕后,比较估计器1和估计器2对视频帧I

第三阶段中设定阈值ε的大小可以根据需要进行设定,并没有统一标准。

优选的,估计器1采用由MPI-INF-3DHP数据集训练完成的VNect、DeepPose、Stacked Hourglass或RMPE神经网络模型。

优选的,估计器2中的算法为使用块匹配算法检测关键点坐标变化的算法,在块匹配算法中,需要在当前帧中基于给定的匹配准则来寻找与上一帧中待匹配宏块最相似的块,宏块是以选定的关键点为中心的一小块矩形区域,块匹配的范围称作搜索窗口,它是以选定的关键点为中心的更大的一块矩形区域,在搜索窗口内与待匹配宏块误差最小的宏块,就作为匹配结果。

更优选的,块匹配算法中匹配准则使用最小均方差函数(MSE)、最小平均绝对值误差(MAD)或最小差值和(SAD)准则,

定义分别如下:

其中,p代表待匹配宏块B中的像素点,v表示正在进行匹配的两个宏块对应的运动矢量,f(a)表示当前视频帧中a位置处的像素值,f

更优选的,确定匹配准则后,还需要对实际的宏块进行匹配,块匹配算法在当前帧中选取将要进行匹配的宏块时,使用搜索模板来有选择性地确定待选取的宏块。进一步优选的,使用搜索模板来有选择性地确定待选取的宏块时,使用的运动估计搜索算法为三步搜索法、菱形搜索法或四步搜索法。

进一步优选的,三步搜索法步骤如下:

第一步:设定视频帧中完全包含宏块的一个较大区域为搜索窗口,宏块中心为搜索窗口的中心点,以该中心点为搜索起点,搜索步长从等于或略大于二分之一搜索窗口半径开始,在每一步长的搜索中,计算当前正方形的中心点和四周八个点共九个点的匹配指标,选择指标最好的点作为下一次搜索的中心点;

第二步:以上一步中得到的点为中心,将本次搜索步长减为上次搜索步长的一半,然后进行相似的搜索,再得到一个最佳匹配点;

第三步,继续将搜索步长减为上次的一半,搜索找到最佳匹配位置。

进一步优选的,菱形搜索法有大菱形和小菱形两种不同的匹配模板,大菱形有9个搜索点,小菱形只有5个搜索点,首先使用步长较大的大菱形搜索模板进行粗搜索,然后使用小菱形模板进行细搜索,菱形搜索法的搜索步骤如下:

第一步:以菱形为模板,计算中心点和其周围八个点共九个点的匹配指标值,比较得到指标最好的点;

第二步:如果搜索的中心点就是指标最好的点,则跳到第三步使用小菱形搜索模板,否则依旧回到第一步的搜索;

第三步:利用搜索点数只有5个点的小菱形搜索模板,计算这5个点的匹配指标值,取指标最好的点为最佳匹配点。

进一步优选的,四步搜索法步骤如下:

第一步:初始设定与三步搜索法相同,计算以关键点为中心的九个所选点的匹配指标值,若指标最好的点是中心点,则跳到第四步,否则进入第二步;

第二步:以上一步搜索到的像素点为中心点,保持选取点的间隔不变,继续计算新得到的九个点的匹配指标值,如果中心点就是指标最好的点,则跳到第四步,否则进入第三步;

第三步:若搜索到的中心点到达搜索窗口边缘,必须将选取点间隔缩小为3×3,则进入第四步,否则重复第二步;

第四步:将选取点间隔缩小为3×3,进行搜索,得到一个最佳匹配点。

优选的,人体关键点定义时,共定义21个关键点,分别为:

本发明的基本思路,是将运动估计块匹配算法运用于人体关键点跟踪,从而获得人体连续姿态结果,同时使用基于深度神经网络的人体姿态估计器不断对结果进行修正。对于人体关键点跟踪,只需要以选定的待跟踪关键点为中心,划分对应数量的宏块,而不需要像在图片压缩时一样将整幅图片全部划分为多个宏块,然后按照一定的策略通过搜索前后相邻的两个图片帧中宏块的变化情况来寻找对该宏块运动情况的最佳估计结果。

本发明可实现对视频流中人体连续姿态的估计,其中人体姿态具体体现为视频帧中人体关键点的坐标位置。相比于完全依靠深度神经网络的姿态估计方法,本发明所提出的姿态估计方法具有帧率高、硬件要求低、识别结果具有时序连续特性的优点;相比完全依靠运动估计算法的姿态估计方法,本发明可修正积累误差,提高估计精度。

本申请技术方案所处理的视频流可以是来自于读取硬盘中存储的视频,也可以来自于摄像头采集的实时视频,并且,在处理来自于摄像头采集的实时视频时,由于对实时性的要求较高,更能凸显本发明的优势。

附图说明

图1为本发明中人体关键点位置示意图。

图2为本发明基于关键点运动估计的人体连续姿态估计方法的流程图。

图3为运动估计块匹配算法的示意图。

图4为三种经典运动估计算法的示意图,其中,(a)三步搜索,(b)四步搜索,(c)菱形搜索。

具体实施方式

在实施例中跟踪的人体关键点的定义如下,共定义21个关键点,每个关键点的名称及编号如下表1所示。每个关键点的位置如图1所示。

表1

本发明基于关键点运动估计的人体连续姿态估计方法的流程图如图2所示。

算法核心部分分为两个模块,分别是:预训练好的深度神经网络姿态估计器,即估计器(1),和基于视频编码H.264标准的运动估计器,即估计器(2)。

对于估计器(1),在实施例中采用由MPI-INF-3DHP数据集训练完成的VNect神经网络模型(其它可行的网络模型还有DeepPose、Stacked Hourglass、RMPE等)。估计器(1)在IntelCorei5-8400 CPU及NVIDIA GeForce GTX 1060 6GBGPU的环境下帧率可以达到30Hz左右,坐标平均误差82.5mm。

对于估计器(2),估计器(2)就是一个用块匹配算法检测关键点坐标变化的算法。

对于块匹配算法,如图3所示,在块匹配算法中,需要在当前帧中基于给定的匹配准则来寻找与上一帧中待匹配宏块最相似的块。宏块是以选定的关键点为中心的一小块矩形区域。块匹配的范围称作搜索窗口,它是以选定的关键点为中心的更大的一块矩形区域。在搜索窗口内与待匹配宏块误差最小的宏块,就作为匹配结果。

块匹配算法常用的匹配准则有最小均方差函数(MSE)、最小平均绝对值误差(MAD)、最小差值和(SAD)准则等,它们的定义分别如下:

其中,p代表待匹配宏块B中的像素点,v表示正在进行匹配的两个宏块对应的运动矢量(相对位置)。f(a)表示当前视频帧中a位置处的像素值,f

确定匹配准则后,还需要对实际的宏块进行匹配。块匹配算法在当前帧中选取将要进行匹配的宏块时,如果依次匹配区域内所有宏块,最终可以找到区域内的一个全局最佳匹配宏块,但是这样做的计算量太大,不符合轻量化要求,在视频编码领域本身也很少采用这种方法。与此相对地,可以使用多种搜索模板来有选择性地确定待选取的宏块。较为经典的运动估计搜索算法有三步搜索法、菱形搜索法以及四步搜索法等。图4(图片引自:杨潇雨,“基于HEVC视频编码运动估计算法的优化,”硕士,南京邮电大学,2018.)为三种经典运动估计算法的示意图,其中,(a)三步搜索,(b)四步搜索,(c)菱形搜索。

三步搜索法步骤如下:

第一步:设定图像中完全包含宏块的一个较大区域为搜索窗口,宏块中心(即关键点的位置)为搜索窗口的中心点,以该中心点为搜索起点,搜索步长(即所挑选的待匹配宏块相互之间的中心距离)从等于或略大于二分之一搜索窗口半径开始。在每一步长的搜索中,计算当前正方形的中心点和四周八个点共九个点的匹配指标(如SAD),选择指标最好(如SAD值最小)的点作为下一次搜索的中心点;

第二步:以上一步中得到的点为中心,将本次搜索步长减为上次搜索步长的一半,然后进行相似的搜索,再得到一个最佳匹配点。

第三步,继续将搜索步长减为上次的一半,搜索找到最佳匹配位置。

四步搜索法步骤如下:

第一步:初始设定与三步搜索法相同,计算以关键点为中心的九个所选点的匹配指标值,若指标最好的点是中心点,则跳到第四步,否则进入第二步;

第二步:以上一步搜索到的像素点为中心点,保持选取点的间隔不变,继续计算新得到的九个点的匹配指标值,如果中心点就是指标最好的点,则跳到第四步,否则进入第三步;

第三步:若搜索到的中心点到达搜索窗口边缘,必须将选取点间隔缩小为3×3,则进入第四步,否则重复第二步;

第四步:将选取点间隔缩小为3×3,进行搜索,得到一个最佳匹配点。

菱形搜索也被称为钻石搜索,有大菱形和小菱形两种不同的匹配模板,大菱形有9个搜索点,小菱形只有5个搜索点。首先使用步长较大的大菱形搜索模板进行粗搜索,然后使用小菱形模板进行细搜索。菱形搜索法的搜索步骤如下:

第一步:以菱形为模板,计算中心点和其周围八个点共九个点的匹配指标值,比较得到指标最好的点;

第二步:如果搜索的中心点就是指标最好的点,则跳到第三步使用小菱形搜索模板,否则依旧回到第一步的搜索;

第三步:利用搜索点数只有5个点的小菱形搜索模板,计算这5个点的匹配指标值,取指标最好的点为最佳匹配点。

本申请实施例中优选采用基于最小差和准则的三步搜索法。

估计器(2)计算简单,运算速度非常快,在Intel Core i5-8400 CPU及NVIDIAGeForce GTX 1060 6GB GPU的环境下帧率可以达到50000Hz左右,远远超出视频流实时处理的帧率要求,但是该估计器随着时间的推移可能会出现严重的漂移现象,逐渐偏离和丢失跟踪目标。

所处理的视频流可以来自于按帧读取的存储设备中存储的视频,也可以来自于摄像头采集的实时视频(此情况下对实时性的要求较高,更能凸显本发明的优势)。

算法流程分为以下三个阶段。

第一阶段:

程序开始运行后,对于首帧导入的视频帧,作为关键帧I

第二阶段:

对于上述估计器(1)运算完毕后,系统紧接着采集到的下一帧视频帧I

第三阶段:

待第二阶段中估计器(1)运算完毕后,比较估计器(1)和估计器(2)对I

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号