首页> 中国专利> 采用循环神经网络依据骨骼形态判断的人体动作检测方法

采用循环神经网络依据骨骼形态判断的人体动作检测方法

摘要

本发明涉及采用循环神经网络依据骨骼形态判断的人体动作检测方法,包括:根据目标检测需要,采集视频图像,判断图像中是否存在目标;从视频图像中提取关键帧;根据关键帧对目标进行姿态估计,得到全身骨骼形态以及骨骼节点集;对骨骼节点集进行分区、分类,分别确定骨骼节点的权值,得到身体部位骨骼形态;采用图卷积神经网络将身体部位的骨骼形态和全身骨骼形态进行特征融合;将得到的融合特征输入循环神经网络,融合前后时刻的时序信息;将循环神经网络输出的图像特征输入分类器,得到当前时刻的动作分类结果。本发明的检测方法抽离了背景图像的影响,结合人体骨骼关键节点变化的时空信息对动作进行检测,提高了识别的准确率,降低了误判率。

著录项

  • 公开/公告号CN113205060A

    专利类型发明专利

  • 公开/公告日2021-08-03

    原文格式PDF

  • 申请/专利权人 武汉纺织大学;

    申请/专利号CN202110541840.9

  • 发明设计人 余锋;刘智贤;姜明华;周昌龙;

    申请日2021-05-18

  • 分类号G06K9/00(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构42244 武汉维盾知识产权代理事务所(普通合伙);

  • 代理人彭永念

  • 地址 430200 湖北省武汉市洪山区纺织路1号

  • 入库时间 2023-06-19 12:05:39

说明书

技术领域

本发明属于计算机视觉领域,具体涉及一种采用循环神经网络依据骨骼形态判断的人体动作检测方法。

背景技术

在现代社会的许多的工作场景中,不少工作仍然具备一定的危险性,由于缺乏必要的监督,工作人员在长期的工作中偶尔会放松警惕,没有按照规范着装穿戴,或者违背了工作过程中的规范操作步骤,由此发生一些对人的生安全产生威胁的情况。

近几年来,随着深度学习神经网络和计算机视觉技术的高速发展,在图像领域取得了许多可喜的进展,比如在目标识别领域已经能做到实时、快速、高效、准确的检测,因此带有时序的人体动作检测也得到了社会更多的关注,也因此出现了许多行为识别的检测方法。公开号为CN110569898A的中国专利“一种人体行为识别方法”是通过传感器数据采集,对采集的传感器数据预处理,再对人体行为特征提取,最后通过设置几组对比实验来选择最佳的分类器参数,最后根据选择的最佳参数设计性能最佳的分类器并进行实验,并使用该分类器识别一组待识别人体行为数据。该方法添加了传感器,会为工作人员增加额外的穿戴,可能在某些场景下并不适用。公布号为CN109002808B的中国专利“一种人体行为识别方法及系统”,可区分背景视频与包含人体行为视频并识别出其种类的网络,通过运用多任务深度学习方法训练3D卷积神经网络,将多种人体行为属性以及背景视频的固定连续帧数的帧块作为网络的输入,经过3D卷积神经网络训练后完成识别任务。该方法包含了对背景的提取识别,在同一背景下识别准确率高,但是泛化能力不够强,场景变化多则能力不够强。

发明内容

本发明的技术问题是现有的采用神经网络的动作识别方法复杂度高,计算量大,误报率高,并且很多方法对视频的时序特征的重视程度不够高,或者带有较强的图像背景信息,无法在大部分场景中适用。

本发明的目的是解决上述问题,提供一种采用循环神经网络依据骨骼形态判断的人体动作检测方法,提取出人体动作的骨骼特征图后,进行基于躯体的分割,对不同的模块用图卷积神经网络进行特征的提取,然后用循环神经网络预测最后的输出,由于循环神经网络的每个输出都与前面的输出具有联系,能记住长时序的特征信息,所以在长视频的动作识别中表现也十分优异。本发明剔除了背景信息,能够适用于大部分的场景,用特征增强的方法提高识别准确率,减小误判率。

本发明的技术方案是采用循环神经网络依据骨骼形态判断的人体动作检测方法,包括以下步骤,

步骤1:根据检测需要,采集视频图像,判断图像中是否存在目标,若存在目标,则执行步骤2,否则重复执行步骤1;

步骤2:从视频图像中提取关键帧;

步骤3:根据关键帧对目标进行姿态估计,得到全身骨骼形态以及骨骼节点集;

步骤4:对骨骼节点进行分区、分类,对不同类别的骨骼节点赋予不同的权值,得到身体部位的骨骼形态;

步骤5:采用卷积神经网络将身体部位的骨骼形态和全身骨骼形态进行特征融合;

步骤6:将步骤5得到的融合特征输入循环神经网络,进一步地融合前后时刻的时序信息;

步骤7:将循环神经网络输出的图像特征输入分类器,得到当前时刻的动作分类结果。

进一步地,步骤1包括以下子步骤:

步骤1.1:利用广角摄像机拍摄视频,从视频流截取获得原始图像样本;

步骤1.2:原始图像样本作为目标检测网络的输入,通过卷积操作得到图像的特征,判断图像中是否有人物存在,若有人物存在,则执行步骤2;否则执行步骤1.1。

优选地,步骤4中,所述对骨骼节点进行分区,将骨骼节点划分为头部节点、躯干节点、左臂节点、右臂节点、左腿节点和右腿节点。

步骤3得到骨骼节点集G(

优选地,采用注意力增强的方式,以突出对目标检测结果影响大的骨骼节点的作用,具体包括:1)对不同身体部位的骨骼节点赋予不同的权值,增大动作幅度大的骨骼节点的权值;2)训练过程中,通过邻接矩阵的先验矩阵对具有连接关系的骨骼节点赋予差异化的权值,并对不连接但是因动作变化而有关联关系的骨骼节点赋予相应的权值。

进一步地,步骤4包括以下子步骤:

步骤4.1:对骨骼节点进行分区;

步骤4.2:根据骨骼节点活动能力,将骨骼节点分为重心节点、临近重心节点和普通节点3类;

步骤4.3:分别对重心节点、临近重心节点和普通节点赋予不同的权值。

相比现有技术,本发明的有益效果包括:

(1) 本发明的人体动作检测方法对输入原始样本图像进行了预筛选,将不存在人物的图像剔除,减少了系统的计算量;

(2) 本发明筛选出具有强识别力的关键帧,它们对动作更有代表能力,加强了模型的学习能力,提升了识别的准确率;

(3) 本发明识别的对象为人体骨骼图像,相对其他方法用原始RGB图像来进行计算,降低了系统的计算量,提高了方法的识别效率;以人体骨骼图像为对象,减少了图像中背景信息的干扰,提高了方法的适用性;

(4) 本发明将人体骨骼图像进行了更加细粒度的划分,用了权重模块关注于肢体的动作,对于一些幅度较小的动作也能有较强的识别能力,大大的提升了方法的识别准确率,降低了误判率;

(5) 本发明在关注肢干动作的同时对整体骨骼图像进行特征的提取,并分别提取时间特征信息和空间特征信后进行融合,保证了动作的完整性,提升了本发明的检测模型的检测能力,具有更高的检测精度;

(6) 本发明运用了先验矩阵,对人体骨骼节点赋予了不同的权值,活动能力更强的人体节点能够起到更强的识别作用,提升了识别的准确率。

附图说明

下面结合附图和实施例对本发明作进一步说明。

图1为本发明实施例的人体动作检测方法的流程图。

图2为本发明实施例的神经网络模型的示意图。

图3为本发明实施例的全身骨骼形态的示意图。

图4为本发明实施例的前后相邻时刻的循环神经网络输出结果的示意图。

具体实施方式

实施例采用注意力增强的方式,以突出对目标检测结果影响大的骨骼节点的作用,具体包括:1)对不同身体部位的骨骼节点赋予不同的权值,增大动作幅度大的骨骼节点的权值;2)训练过程中,通过邻接矩阵的先验矩阵对具有连接关系的骨骼节点赋予差异化的权值,并对不连接但是因动作变化而有关联关系的骨骼节点赋予相应的权值。

如图1-2所示,采用循环神经网络依据骨骼形态判断的人体动作检测方法,利用目标检测网络对输入视频图像进行初步筛选,从筛选的有目标的视频图像中提取关键帧,对关键帧进行姿态估计后将人体骨骼图划分为不同的集合,用先验矩阵和权重模块分别进行注意力增强,让系统更加注重动作能力强的节点,然后用图卷积网络提取骨骼图像的空间特征,进行融合后提交到循环神经网络,进行时间信息的融合,最后送入分类器得到结果,包括以下步骤,

步骤1:根据目标检测需要,采集视频图像,判断图像中是否存在目标;

步骤1.1:利用广角摄像机拍摄视频,从视频流截取获得原始图像样本;

步骤1.2:原始图像样本作为目标检测网络的输入,通过卷积操作得到图像的特征,判断图像中是否有人物存在,若有人物存在,则执行步骤2;否则执行步骤1.1;

步骤2:根据两个重要因素从视频图像中提取关键帧,两个重要因素包括:1)所选图像帧对于动作识别的识别能力;2)所选帧与整个动作的图像序列的关系;

步骤3:根据关键帧对目标进行姿态估计,得到全身骨骼形态以及骨骼节点集G(

步骤4:对骨骼节点集进行分区、分类,分别确定骨骼节点的权值,得到身体部位骨骼形态;

步骤4.1:对骨骼节点进行分区,将骨骼节点划分为头部节点、躯干节点、左臂节点、右臂节点、左腿节点和右腿节点;

步骤4.2:根据骨骼节点活动能力,将骨骼节点分为重心节点、临近重心节点和普通节点3类;步骤4.3:分别对重心节点、临近重心节点和普通节点赋予不同的权值;

步骤5:采用图卷积神经网络将身体部位的骨骼形态和全身骨骼形态进行特征融合;

步骤6:将步骤5得到的融合特征输入循环神经网络,融合前后时刻时序信息;

步骤7:将循环神经网络输出的图像特征输入分类器,得到当前时刻的动作分类结果。

图4所示的循环神经网络中,循环神经网络单元为LSTM(Long Short-TermMemory)单元,其中

初步筛选是指以原始样本图像作为输入,经过目标检测将存在人物的图像筛选出来得到处理图像的过程,该步骤的筛选可以剔除掉大部分的无用信息,提高模型的效率。

深度强化学习模块是指对处理图像进行帧的选择的模块,因图像采样频率较高,得到了许多语义信息不强的图像,经过帧的选择后可以达到增强学习效果的作用,减少了冗余信息的影响。

实施例中,通过计算比较视频帧的信息熵、互信息熵,挑选出关键帧,提取关键帧的具体过程参照2018年太原理工大学高永的学位论文“基于信息熵的关键帧提取算法的研究与实现”公开的关键帧提取算法。

先验矩阵,是指模型训练时根据动作活动强度生成的权重矩阵,权重矩阵的大小是n×n,与邻接矩阵大小相同,人体在进行动作时,不同位置的骨骼节点表现的活动能力会有所不同,比如指尖、脚尖等距离重心较远的点其运动速度和范围会更大,对于这些骨骼节点需要赋予其更大的权值,先验矩阵的作用是对完整骨骼信息的骨骼节点图赋予权值。

权重模块,是指划分骨骼节点后,为它们分别赋予不同的权值,重心节点是指关节处的节点,其运动范围小,赋予权值相对最低;临近重心节点活动范围稍大,相应权重值相对重心节点较大;普通节点活动范围最大,赋予最大的权值,但是同类节点权值大小不一定相等,目的是为了对活动能力强的节点给予更多的关注,提高动作识别的准确率。

初始化的邻接矩阵仅仅保存了节点之间的连接信息,全身骨骼形态与邻接矩阵A一一对应,它们共同组成完整的人体骨骼信息。

循环神经网络处理特征信息交给分类器,是以融合的特征信息为输入,训练循环神经网络得到符合预期的输出结果,预测时可直接计算得到结果。

判断图像中是否有人物存在,是指原始样本图像经过目标检测网络后得到的输出是一个分类的结果,该结果中包含了对象的类别信息以及对象的位置数据,对象的类别信息是提前设定好的信息,判断出对象是人物则对该原始样本进行标记,得到需要的处理图像。

图卷积神经网络提取特征,是指对输入的人体骨骼图像进行傅里叶变换后得到的特征矩阵H,然后与邻接矩阵A和图卷积神经网络的参数矩阵进行相关的数学运算后得到的结果。

动作活动强度是指在一个动作序列中,活动速度和距离相对更大。

实施结果表明,本发明的动作检测方法相比现有的人体动作检测方法提高了识别的准确率,降低了误判率。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号