公开/公告号CN114863555A
专利类型发明专利
公开/公告日2022-08-05
原文格式PDF
申请/专利权人 郑州大学;
申请/专利号CN202210370376.6
申请日2022-04-09
分类号G06V40/20(2022.01);G06V10/764(2022.01);G06V10/82(2022.01);G06K9/62(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);
代理机构郑州科维专利代理有限公司 41102;
代理人赵继福
地址 450000 河南省郑州市高新技术开发区科学大道100号
入库时间 2023-06-19 16:16:00
法律状态公告日
法律状态信息
法律状态
2022-08-23
实质审查的生效 IPC(主分类):G06V40/20 专利申请号:2022103703766 申请日:20220409
实质审查的生效
2022-08-05
公开
发明专利申请公布
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于时空多残差图卷积的3D骨骼点动作识别方法。
背景技术
目前使用图卷积骨骼点动作识别,是使用时空图卷积神经网络模型对图卷积神经网络进行动作识别,时空图卷积网络的时空图建模过程可分两个部分,即空间建模和时间建模。在空间建模部分,模型根据人体结构的连通性,通过自然定义的设置连接方法,将时空图中的每一帧的相邻点连接成边,形成空间边集合E
因此,提供一种在时空图网络模型中将人体骨骼点局部特征信息与全局特征融合的方法模型,同时使用局部特征信息和全局特征信息的基于时空多残差图卷积的3D骨骼点动作识别方法,已是一个值得研究的问题。
发明内容
本发明的目的是提供一种在时空图网络模型中将人体骨骼点局部特征信息与全局特征融合的方法模型,同时使用局部特征信息和全局特征信息的基于时空多残差图卷积的3D骨骼点动作识别方法。
本发明的目的是这样实现的:
一种基于时空多残差图卷积的3D骨骼点动作识别方法,包括以下步骤:步骤1:通过OpenPose等骨骼点检测框架获取片段上的骨骼点;步骤2:数据处理:为了保持输入数据比例一致,将数据输入至时空多残差图卷积神经网络ST-RESGCN之前,首先进行数据格式处理,通过两路分支提取骨骼点信息;步骤3:在时空图卷积神经网络ST-GCN中的图卷积模块中同步增加类残差卷积网络模块,用来并行获取到人体动作骨骼点的全局骨骼点特征信息,将通过模型输入的骨骼序列与邻接矩阵的子集进行信息融合,获取到人体骨骼点的局部特征信息;同时通过增加类残差卷积模块,获取到人体骨骼点的全局特征信息,将步骤2中的两路分支特征信息并行传入时空多残差图卷积神经网络ST-RESGCN当中,在利用局部特征信息的基础上同步加入全局特征信息进行特征信息融合,充分挖掘人体骨骼点特征信息。
所述步骤3中,通过时空多残差图卷积神经网络ST-RESGCN进行局部动作特征和全局动作特征的提取,其中空间图卷积模块的公式为:
W(v
B(v
所述步骤3中,时空多残差图卷积神经网络ST-RESGCN将局部特征与全局特征融合后,并送入时间卷积模块完成对人体骨骼点时间特征的提取,时空多残差图卷积神经网络ST-RESGCN中每一层的ST-RESGCN模块包括注意力机制模块、空间图卷积模块、残差卷积模块和时间卷积模块;在每层空间图卷积模块加入残差卷积网络模块,将在图卷积模块中与特征子集融合处理后捕捉到局部特征,与动作骨架图结构的全局特征信息融合后传入时间卷积模块,以此提取空间域和时间域上的特征信息。
所述步骤3中,在每一层的图卷积神经网络GCN中同步加入残差卷积模块,其中每层图卷积网络输出结果为:
f
公式中G(x,A)为骨骼序列经过图卷积神经网络GCN与手工设定好的特征节点A融合后的特征信息,R(x)为骨骼序列经过每层残差卷积模块的序列信息,f
所述时空图卷积神经网络ST-GCN中的图卷积模块包括空间图卷积模和时间卷积模块;类残差卷积网络模块ST-RESGCN包括空间图卷积模、残差模块和时间卷积模块。
所述步骤2中两路分支分别为:一路分支是将人体骨骼点通过图卷积的邻接矩阵,即将相邻骨骼点分成三个子集:根节点本身、向心群、离心群,以此提供局部特征信息;另一路分支是将所有节点序列信息集合传入类残差卷积网络模块ST-RESGCN的残缺模块中,来提取人体骨骼点的全局特征信息,同步传入到时空多残差图卷积神经网络ST-RESGCN当中并行处理。
所述步骤1中,通过OpenPose提供18点骨骼点或者25点骨骼点输出。
所述时空多残差图卷积神经网络ST-RESGCN中的通道数为64、64、64、128、128、128、128、128、256。
积极有益效果:本发明在原有的时空图卷积神经网络(ST-GCN)模型的基础上,通过增加类残差卷积神经网络捕捉人体骨骼点的全局信息与原图卷积神经网络获取的人体骨骼点局部信息融合处理,用以补充全局特征信息。同时改进了神经网络的参数,在减少运算复杂度同时,提高了网络的泛化能力,提高了相似动作识别的准确率。
附图说明
图1为本发明的流程图;
图2为本发明基于骨骼点的动作识别模型结构图;
图3为本发明时空多残差图卷积网络模块结构图。
具体实施方式
以下结合附图和实施例对本发明作进一步说明。
如图1至图3所示,一种基于时空多残差图卷积的3D骨骼点动作识别方法,包括以下步骤:步骤1:通过OpenPose等骨骼点检测框架获取片段上的骨骼点;通过OpenPose提供18点骨骼点或者25点骨骼点输出。
步骤2:数据处理:为了保持输入数据比例一致,将数据输入至时空多残差图卷积神经网络ST-RESGCN之前,首先进行数据格式处理,通过两路分支提取骨骼点信息;一路分支是将人体骨骼点通过图卷积的邻接矩阵,即将相邻骨骼点分成三个子集:根节点本身、向心群、离心群,以此提供局部特征信息,另一路分支是将所有节点序列信息集合传入另一路分支是将所有节点序列信息集合传入类残差卷积网络模块ST-RESGCN的残缺模块中,来提取人体骨骼点的全局特征信息,同步传入到时空多残差图卷积神经网络ST-RESGCN当中并行处理。
步骤3:在时空图卷积神经网络ST-GCN中的图卷积模块中同步增加类残差卷积网络模块,用来并行获取到人体动作骨骼点的全局骨骼点特征信息,将通过模型输入的骨骼序列与邻接矩阵的子集进行信息融合,获取到人体骨骼点的局部特征信息;同时通过增加类残差卷积模块,获取到人体骨骼点的全局特征信息,时空多残差图卷积神经网络ST-RESGCN中的通道数为64、64、64、128、128、128、128、128、256,将步骤2中的两路分支特征信息并行传入时空多残差图卷积神经网络ST-RESGCN当中,在利用局部特征信息的基础上同步加入全局特征信息进行特征信息融合,充分挖掘人体骨骼点特征信息。
通过时空多残差图卷积神经网络ST-RESGCN进行局部动作特征和全局动作特征的提取,其中空间图卷积模块的公式为:
W(v
B(v
在每一层的图卷积神经网络GCN中同步加入残差卷积模块,其中每层图卷积网络输出结果为:
f
公式中G(x,A)为骨骼序列经过图卷积神经网络GCN与手工设定好的特征节点A融合后的特征信息,R(x)为骨骼序列经过每层残差卷积模块的序列信息,f
所述时空图卷积神经网络ST-GCN中的图卷积模块包括空间图卷积模和时间卷积模块;类残差卷积网络模块ST-RESGCN包括空间图卷积模、残差模块和时间卷积模块。
本发明提出的模型首先在ST-GCN网络的基础上进行训练,通过预训练得到的模型作为初始化权重模型,采用SGD梯度算法进行网络的训练。本发明实验中使用四块2080TI显卡进行实验训练,初始输入通道为3,训练网络的num_epoch设置为80,训练的batch_size设置为64,测试网络中的batch_size设置为64。同时将初始基础学习率设为0.1,在step为10和50时将学习率衰减为原来的1/10。同时为了防止过拟合问题,本发明将dropout设置为0.5,alpha设置为0.2。此外,本发明采用自适应平均池化层进行池化,使得该网络模型更加稳定、运算成本进一步降低。
数据集方面,分别使用NTU-RGB+D数据集和Kinetics数据集。前者动作识别数据集是由56880个动作样本组成,是目前最大的具有关节标注的用于人体动作识别的数据集,其中每个样本中包含RGB视频,深度图序列,3D骨架数据和红外数据。此数据集是由三个MicrosoftKinectv.2相机同时获取,3D骨骼数据包括每帧25个主要身体关节的三维位置,每个样本的帧数为300帧,对于小于300帧的样本,重复序列使其达到300帧。该数据集含有两种分割方式,X-Sub(跨表演人)和X-View(跨视角)。为了评估模型,其中训练集和测试集分别有37920和18960个样本。后者数据集来源于YouTube,是一个用于动作识别的大型数据集,共有600个类别,覆盖了从日常活动、运动场景到复杂的交互动作。每个类别至少有600个视频,共具有30万个视频片段。每个样本固定有300个帧,训练集和测试集分别包含240000和20000样本骨架序列。步骤1:对于NTU-RGB+D数据集,其本身包含3D骨架数据,因此无需做处理即可输入至ST-RESGCN网络。而Kinect的数据集只包含RGB视频,因此要通过OpenPose提取鼻部、肩膀、手腕、膝盖等总共18个骨骼点信息。
步骤2:将提取到的骨骼点局部特征数据和全局特征数据并行传入该网络模型(ST-RESGCN)当中,其中每一层的ST-RESGCN网络模型结构如图3所示。其中GCN模块提取动作特征的局部信息,RES模块提取动作特征的全局信息。其中每层图卷积网络输出结果为:f
步骤3:经过最后一层全连接层,使用softmax进行动作的分类识别。
使用效果:
表1
表1为X-Sub上的实验结果,由表1可知,提出的时空多残差图卷积神经网络(ST-RESGCN)相比于现有的ST-GCN等网络模型在多个大型数据集上的识别效果有了进一步的改善和提升。并与当前网络模型相比,加入残差卷积网络后的网络模型在C-Sub上Top-1的提升率约为1.21%。
表2
表2为X-View上的实验结果,由表2可知提出的时空多残差图卷积神经网络(ST-RESGCN)相比于现有的ST-GCN等网络模型在多个大型数据集上的识别效果有了进一步的改善和提升。并与当前网络模型相比,加入残差卷积网络后的网络模型在C-View上Top-1的提升率约为0.90%。
表3
表3为Kinetics上的实验结果,由表3可知提出的时空多残差图卷积神经网络(ST-RESGCN)相比于现有的ST-GCN等网络模型在多个大型数据集上的识别效果有了进一步的改善和提升。并与当前网络模型相比,加入残差卷积网络后的网络模型在Kinects上Top-1的提升率约为1.08%,在Top-5上的提升率约为1.66%。
本发明在原有的时空图卷积神经网络(ST-GCN)模型的基础上,通过增加类残差卷积神经网络捕捉人体骨骼点的全局信息与原图卷积神经网络获取的人体骨骼点局部信息融合处理,用以补充全局特征信息。同时改进了神经网络的参数,在减少运算复杂度同时,提高了网络的泛化能力,提高了相似动作识别的准确率。
机译: 基于残差卷积和递归神经网络的中文场景文本行识别方法
机译: 使用3D时空卷积神经网络的视频中的动作识别
机译: 使用3D时空卷积神经网络的视频动作识别