首页> 中国专利> 一种基于选择性超图卷积网络的骨架动作识别方法

一种基于选择性超图卷积网络的骨架动作识别方法

摘要

本发明提出了一种基于选择性超图卷积网络的骨架动作识别方法;通过设计一个全新的选择性超图卷积网络,在选择性超图卷积网络中适应性地提取骨架中的多尺度信息和选择性地聚合时序关键帧特征;在选择性超图卷积网络中主要表现为:将骨架表示成超图结构来建模关节点之间的高阶关系而不破外固有的空间位置属性;采用尺度选择超图卷积来充分提取多尺度信息和选择性融合多个尺度的特征;以及采用帧选择时间卷积来代替传统的步长时间卷积,根据帧的重要性自适应地选择关键帧和过滤冗余帧。从而实现了对节点间的高阶关系的重视处理、对多尺度信息的充分融合以及在减少冗余的过程中对关键帧信息进行筛选保留,从而实现了更高效且更高精度的骨架动作识别。

著录项

  • 公开/公告号CN113283400A

    专利类型发明专利

  • 公开/公告日2021-08-20

    原文格式PDF

  • 申请/专利权人 成都考拉悠然科技有限公司;

    申请/专利号CN202110812098.0

  • 发明设计人 沈复民;朱怡燃;徐行;申恒涛;

    申请日2021-07-19

  • 分类号G06K9/00(20060101);G06K9/62(20060101);G06N3/04(20060101);

  • 代理机构51228 成都君合集专利代理事务所(普通合伙);

  • 代理人尹新路

  • 地址 610000 四川省成都市自由贸易试验区成都高新区天府五街200号4号楼A区10层1001、1002、1003室

  • 入库时间 2023-06-19 12:18:04

说明书

技术领域

本发明属于计算机视觉人工智能识别技术领域,具体地说,涉及一种基于选择性超图卷积网络的骨架动作识别方法。

背景技术

现如今,骨架动作识别在计算机的很多视觉领域都吸引了越来越多的注意力,比如智能监控,人机交互,视频理解以及虚拟现实等等。在这个识别任务中,使用的数据是骨架数据,即一系列人体关节点3D坐标。骨架数据在动作识别中相较于RGB动作识别具有很好的鲁棒性和灵活性。因为在RGB动作识别中,动作的分类过程容易受到视频图片帧中背景的干扰,从而在一定程度上降低识别准确率。

而骨架动作识别是很容易从3D传感器还有现在成熟的姿态估计算法中获取的,因为其只含有人体关键点坐标,过滤了背景噪声,从而具有很好的鲁棒性。另外骨架数据相比于视频数据,其数据规模要小很多,因此使用骨架数据可以减少模型计算负荷,从而提高模型计算效率。以上是骨架动作识别的优势。

随着深度学习的发展,在骨架动作识别里面主要有三类方法:基于CNN网络的,基于RNN网络的以及基于GNN网络的。

在之前,大部分方法习惯将骨架数据即一个人体关节点坐标序列通过编码表示成图像,然后利用基于CNN网络或者RNN网络的方法进一步提取动作特征。基于人体物理结构,骨架序列是可以很自然地的表示为一张图,但是这些方法将骨架序列表示为的图像却是不自然的。这同样也是后来的基于GNN网络的模型所采取的数据表示形式,即将人体关节点作为点,将基于身体物理连接的bone线条作为边,建立图。这样就可以利用强大的图神经网络来更好地融合骨架信息,来促进识别性能。在基于GNN网络的方法中,GCN网络被频繁使用,GCN网络可以看作CNN网络在非欧式空间数据上的推广,非常适合在像图一样的拓扑结构上提取信息。

在现有众多方法中,在时空图卷积网络中很早就运用了GCN网络;接着,在STGCN网络中,采用了将3D骨架数据以解耦的方式,先将骨架数据通过2D图卷积去提取空间关节信息,随后利用1D时间卷积去提取时序信息,取得了比较好的性能和效率。接着,到了2s-AGCN中,发现还存在长范围信息没有被很好提取的问题。于是受非局部网络的启发,进一步加入了自适应图卷积模块,同时又利用了双流架构,在之后的MS-AAGCN网络中采用了多条分支,并且引入注意力来进一步使识别的性能得到了提升。

然而,上述的这些方法依旧存在下列三个共性问题:

(1)它们受限地将人体骨架表示成了一个树状结构并表示成一个简单图,而忽视去建模节点间的高阶关系;

(2)它们通常关注于单一的关节尺度信息而缺乏多尺度上下文信息(比如部位尺度和身体尺度),另外,多尺度信息的提取不够充分,多尺度信息的融合不够灵活;

(3)步长时间卷积经常被用于聚合时间信息和减少时序冗余,但是它是基于间隔采样的,很容易过滤掉想要保留的关键帧。

发明内容

本发明基于上述现有技术存在的共性问题,提出了一种基于选择性超图卷积网络的骨架动作识别方法;本发明通过设计一个全新的选择性超图卷积网络,在选择性超图卷积网络中适应性地提取骨架中的多尺度信息和选择性地聚合时序关键帧特征;在选择性超图卷积网络中主要表现为:将骨架表示成超图结构来建模关节点之间的高阶关系而不破外固有的空间位置属性;采用尺度选择超图卷积来充分提取多尺度信息和选择性融合多个尺度的特征;以及采用帧选择时间卷积来代替传统的步长时间卷积,根据帧的重要性自适应地选择关键帧和过滤冗余帧。从而实现了对节点间的高阶关系的重视处理、对多尺度信息的充分融合以及在减少冗余的过程中对关键帧信息进行筛选保留,从而实现了更高效且更高精度的骨架动作识别。

本发明具体实现内容如下:

本发明提出了一种基于选择性超图卷积网络的骨架动作识别方法,用于对输入的骨架动作进行识别,所述识别方法具体包括以下步骤:

步骤1:选择训练数据集;

步骤2:构建选择性超图卷积网络;

步骤3:对训练数据集中的数据进行预处理;

步骤4:对将要训练的选择性超图卷积网络模型的所有参数进行随机初始化操作;

步骤5:使用预处理后的训练数据集训练选择性超图卷积网络模型,得到最后的分析结果;

步骤6:使用选取数据集对模型进行验证;

所述选择性超图卷积网络具体包括依次连接的多个选择性时空超图卷积块,还包括与选择性时空超图卷积块连接的全局平均池化层和全连接分类器;一个所述选择性时空超图卷积块包括依次连接的尺度选择超图卷积网络和帧选择时间卷积网络;

所述尺度选择超图卷积网络包括关节尺度图卷积网络、部位尺度超图卷积网络和身体尺度超图卷积网络;

所述帧选择时间卷积网络包括帧重要性计算分支网络、帧特征聚合分支网络和残差分支网络。

为了更好地实现本发明,进一步地,所述步骤5的具体操作为:

步骤5.1:将经过预处理后的训练数据分别输入到第一个选择性时空超图卷积块中的关节尺度图卷积网络、部位尺度超图卷积网络和身体尺度超图卷积网络中,得到节点尺度特征、部位尺度特征和身体尺度特征;

步骤5.2:将得到的节点尺度特征、部位尺度特征和身体尺度特征进行元素级相加,得到相加后的尺度特征

步骤5.3:将相加后的尺度特征U进行全局平均池化得到全局上下文信息,然后使用全连接网络的ReLU激活函数对全局上下文信息进行降维和权重分配,得到最终的全局特征z;

步骤5.4:计算选择权重值,通过全局特征z和选择权重值,计算得到经过选择的特征;

步骤5.5:在帧选择时间卷积网络中对于经过选择的特征进行以下操作:

首先,将经过选择的特征输入到帧特征聚合分支网络中,采用步长时间卷积进行时序特征聚合得到聚合后的帧特征

然后,判断聚合后的帧特征

最后,对送入到残差分支网络中的聚合后的帧特征

步骤5.6:将第一个选择性时空超图卷积块输出的输出特征

为了更好地实现本发明,进一步地,一个选择性时空超图卷积块的尺度选择超图卷积网络中的三个所述关节尺度图卷积网络、部位尺度超图卷积网络和身体尺度超图卷积网络的具体计算方法为:

式中,

为了更好地实现本发明,进一步地,所述步骤5.4的具体操作为:

首先,使用沿着通道维度的软注意力机制,基于全局特征z分别计算关节尺度图卷积网络、部位尺度超图卷积网络和身体尺度超图卷积网络三个分支下的选择权重值,所述沿着通道维度的软注意力机制表现为对应的三个不同的带有Softmax函数的全连接层;

然后,通过对应的权重得到对应的带有选择权重值的关节尺度、带有选择权重值的部位尺度、带有选择权重值的身体尺度,将带有选择权重值的关节尺度、带有选择权重值的部位尺度、带有选择权重值的身体尺度相加得到经过选择的特征;

具体计算公式如下:

上式为关节尺度图卷积网络、部位尺度超图卷积网络和身体尺度超图卷积网络三个分支下的选择权重值的计算公式;式中,

上式为经过选择的特征的计算公式,式中

为了更好地实现本发明,进一步地,所述帧特征聚合分支网络的运行操作为:对给定的输入特征

上式中,

为了更好地实现本发明,进一步地,步骤5.5中所述输出特征

式中,

在步骤5.5中,判断聚合后的帧特征

对于判断为不需要的,直接采用聚合后的帧特征

对于判断为需要的:首先,在帧重要性计算分支网络中设置两个

上式中,

为了更好地实现本发明,进一步地,在所述步骤5中,对于所述选择性超图卷积网络模型,设置损失函数进行训练,设置的损失函数具体为:

上式中,

为了更好地实现本发明,进一步地,在所述步骤4中,将初始学习率设置为

在所述步骤5中进行训练时,对训练时的学习率

式中,

为了更好地实现本发明,进一步地,所述K的取值为3。

为了更好地实现本发明,进一步地,所述选择性时空超图卷积块设置的数量为9个。

本发明与现有技术相比具有以下优点及有益效果:

(1)本发明引入超图来表示人体骨架并且重新设计了一种高级的能适应性提取骨架多尺度上下文信息的尺度选择超图卷积,它可以学习到深层的多尺度上下文并灵活地聚合多个尺度的特征。

(2)本发明提出了一种可以根据时序帧的重要性分数自适应地选择并增强关键帧的帧选择时间卷积。

(3)本发明将以上两个模块尺度选择超图卷积和帧选择时间卷积组合并堆叠形成选择性超图卷积网络结构,大大提高了骨架动作识别的性能,经过在挑战性的基准数据集上的评估,结果显示本发明提出基于选择性超图卷积网络的骨架动作识别方法超过了所有现有的方法。

(4)本发明提出的是端到端的模型,可以方便地被迁移到其它下游任务上。

附图说明

图1是本发明一种基于选择性超图卷积网络的骨架动作识别的具体实施方式流程图;

图2为选择性超图卷积网络的结构示意图;

图3为尺度选择超图卷积(SHC)网络的结构示意图;

图4为帧选择时间卷积(STC)网络不进行池化处理或者减少冗余度的结构示意图;

图5为帧选择时间卷积(STC)网络进行池化处理或者减少冗余度的结构示意图。

具体实施方式

为了更清楚地说明本发明实施例的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,应当理解,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例,因此不应被看作是对保护范围的限定。基于本发明中的实施例,本领域普通技术工作人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“设置”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;也可以是直接相连,也可以是通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

实施例1:

本实施例提出了一种基于选择性超图卷积网络的骨架动作识别方法,如图1、图2所示,用于对输入的骨架动作进行识别,所述识别方法具体包括以下步骤:

步骤1:选择训练数据集;

步骤2:构建选择性超图卷积网络;

步骤3:对训练数据集中的数据进行预处理;

步骤4:对将要训练的选择性超图卷积网络模型的所有参数进行随机初始化操作;

步骤5:使用预处理后的训练数据集训练选择性超图卷积网络模型,得到最后的分析结果;

步骤6:使用选取数据集对模型进行验证;

所述选择性超图卷积网络具体包括依次连接的多个选择性时空超图卷积块,还包括与选择性时空超图卷积块连接的全局平均池化层和全连接分类器;一个所述选择性时空超图卷积块包括依次连接的尺度选择超图卷积网络和帧选择时间卷积网络;

所述尺度选择超图卷积网络包括关节尺度图卷积网络、部位尺度超图卷积网络和身体尺度超图卷积网络;

所述帧选择时间卷积网络包括帧重要性计算分支网络、帧特征聚合分支网络和残差分支网络。

工作原理:本发明通过设计一个全新的选择性超图卷积网络,在选择性超图卷积网络中适应性地提取骨架中的多尺度信息和选择性地聚合时序关键帧特征;它首先由尺度选择超图卷积(Selective-scale Hypergraph Convolution,简称SHC)和帧选择时间卷积(Selective-frame Temporal Convolution,简称STC)组合形成一个选择性时空超图卷积块,然后堆叠多个选择性时空超图卷积块来构成整个选择性超图卷积网络。这样的一种网络结构可以适应性地提取人体骨架中的多尺度上下文和选择性地聚合时序关键帧特征,并大幅提升骨架动作识别的性能。在选择性超图卷积网络中主要表现为:将骨架表示成超图结构来建模关节点之间的高阶关系而不破外固有的空间位置属性;采用尺度选择超图卷积来充分提取多尺度信息和选择性融合多个尺度的特征;以及采用帧选择时间卷积来代替传统的步长时间卷积,根据帧的重要性自适应地选择关键帧和过滤冗余帧。从而实现了对节点间的高阶关系的重视处理、对多尺度信息的充分融合以及在减少冗余的过程中对关键帧信息进行筛选保留,从而实现了更高效且更高精度的骨架动作识别。

实施例2:

本实施例在上述实施例1的基础上,如图3所示,本发明中的尺度选择超图卷积网络(Selective-scale Hypergraph Convolution,简称SHC)主要用于自适应地提取骨架中的多尺度上下文信息,在尺度选择超图卷积模块中,输入特征X首先被发送到三个卷积分支,包括关节尺度图卷积、部位尺度超图卷积和身体尺度超图卷积。

式中,

然后,三个不同尺度得到的输出特征进行元素级相加得到

其中,

然后,我们使用沿着通道维度的软注意力去得到每个分支的选择权重值。软注意力被实现为三个不同的带有

上式为关节尺度图卷积网络、部位尺度超图卷积网络和身体尺度超图卷积网络三个分支下的选择权重值的计算公式;式中,

然后,由多个尺度上的选择权重计算得到经过选择的特征

上式为经过选择的特征的计算公式,式中

工作原理:尺度选择超图卷积由多个并行的图卷积和超图卷积组成(包括关节尺度图卷积、部位尺度超图卷积和身体尺度超图卷积等),关注于设计自适应的感受野并学习到骨架中的多尺度上下文。

本实施例的其他部分与上述实施例1相同,故不再赘述。

实施例3:

本实施例在上述实施例1-2任一项的基础上,为了更好地实现本发明,进一步地,如图4、图5所示,本发明中引入帧选择时间卷积网络(Selective-frame TemporalConvolution,简称STC)来根据时序帧的重要性分数选择性地聚合关键帧和过滤冗余帧。因为动作是随时间变化而变化的,所以时间信息对于动作识别是非常重要的。

具体地,STC模块包含三个分支:(1)帧重要性计算分支;(2)帧特征聚合分支;(3)残差分支。

给定输入特征

这里,我们详细阐述STC网络中采用了帧重要性计算的情况下的整个选择机制过程:在开始,两个

上式中,

工作原理:帧选择时序卷积可以根据时序帧的重要性,适应性地选择信息量大的关键帧并过滤冗余的时序帧。

本实施例的其他部分与上述实施例1-2任一项相同,故不再赘述。

实施例4:

本实施例在上述实施例1-3任一项的基础上,为了更好地实现本发明,进一步地,在所述步骤5中,对于所述选择性超图卷积网络模型,设置损失函数进行训练,设置的损失函数具体为:

上式中,

本实施例的其他部分与上述实施例1-3任一项相同,故不再赘述。

实施例5:

本实施例在上述实施例1-4任一项的基础上,为了更好地实现本发明,进一步地,在所述步骤4中,将初始学习率设置为

在所述步骤5中进行训练时,对训练时的学习率

式中,

本实施例的其他部分与上述实施例1-4任一项相同,故不再赘述。

实施例6:

本实施例在上述实施例1-5任一项的基础上,给出基于选择性超图卷积网络的骨架动作识别方法的具体实现过程举例,包含如下步骤:

步骤1:选择训练数据集。本实施例选取了两个主流的骨架动作识别基准数据集进行实验,包括NTU-RGB+D和Skeleton-Kinetics。

NTU-RGB+D是目前最大的视频数据集,并且伴有3D关节标注和人类动作识别任务,这个数据集包含60个动作类中的动作剪辑,由56,880个动作样本组成,包含每个样本的RGB视频,深度图序列,3D骨架数据和红外视频。此数据集由3个Microsoft Kinect v2相机同时捕获。RGB视频的分辨率为1920×1080,深度图和红外视频均为512×424。这些片段都是由40名志愿者在限制的实验室环境进行的,同时与三个相机视角记录收集。提供的标注给出了在摄像机坐标系中的3D关节位置(x, y, z)。每个受试者有25个关节的骨架序列。每个剪辑保证最多有2个人。一般地,这个数据集有两个标准协议:跨主体(CS)和跨视图(CV)。

Skeleton-Kinetics来自Kinetics视频识别数据集,这是一个大规模的视频动作识别数据集,包括400个动作类别和30万个视频片段。原始数据集仅包含视频片段,因此没有骨架数据可用。幸运的是,Skeleton-Kinetics是在OpenPose处理原始数据集后发布的。每个关节包含一个二维坐标(x, y)和置信分数(s)。因此,它最终被表示为(x,y,s)的元组。每个骨架有18个关节。训练集和测试集分别包含24万个和2万个视频片段。

选择以上两个个数据集是为了验证模型对于不同类型数据集的适应性和鲁棒性,NTU-RGB+D面向3D骨架动作识别任务,而Skeleton-Kinetics则是面向2D骨架动作识别。

步骤2:构建基于选择性超图卷积网络的骨架动作识别方法。

如图2、图3、图4所示,本发明设计的基于选择性超图卷积网络模型包含两个核心组件:尺度选择超图卷积和帧选择时间卷积。其中,尺度选择超图卷积引入超图来表示人体骨架并且能够充分地提取多尺度信息和选择性地融合来自多个尺度的特征。代替传统的步长时间卷积,本发明提出的帧选择时间卷积可以自适应地选择关键帧并且过滤掉冗余帧,甚至增强关键帧的特征。整个选择性超图卷积网络由以上两个模块组合并堆叠而成。

步骤3:对数据进行预处理操作。在模型训练的过程中,需要将所有骨架关节点坐标进行一定的预处理,根据数据的需要可以适当使用归一化,去噪等操作。

步骤4:对模型进行初始化操作。对模型所有参数进行合适的随机初始化操作,以便模型能够快速收敛。

步骤5:训练选择性超图卷积网络模型。在训练过程中,由于主要使用NTU-RGB+D和Skeleton-Kinetics两个数据集,其输入网络的骨架关节点数目大小分别是25和18,网络每个块的输出通道数依次为64、64、64、128、128、128、256、256和256。另外,在第四层和第七层,在STC模块中配置了自适应池化操作。使用SGD优化器进行学习,初始学习率为0.1,总迭代轮数设置为65,在第35轮和第55轮学习率变为原来的

另外,模型的损失函数如下:

上式中,

步骤6:在选取数据集上验证模型。对于不同数据集评估指标也不太同,对于NTU-RGB+D数据集,通常Top-1准确率被评估在跨主体和跨视图两个协议上;而对于Skeleton-Kinetics数据集,实验中报告了Top-1和Top-5准确率以进行评估。

发明人分别在NTU-RGB+D和Skeleton-Kinetics两个数据集测试了模型的性能,与当前流行的方法相比,两个数据集上的四个指标都超过了存在的方法,达到了现有最好结果。测试比较结果如表1、表2所示:

表1 在NTU-RGB+D数据集上选择性超图卷积网络模型和当前主流方法的性能对比

表2 在Skeleton-Kinetics数据集上选择性超图卷积网络模型和当前主流方法的性能对比

从表1和表2可以看出,对于NTU-RGB+D数据集,我们报告了跨视图和跨主体两个协议的Top-1准确率。先前的方法可以分为基于RNN、基于CNN和最近的基于GCN的方法。表1显示,我们的选择性超图卷积网络的性能优于先前方法,达到了最好的性能。与我们的基线模型2s-AGCN相比,我们的选择性超图卷积网络在两个协议上的准确率分别从95.1%增加到96.5%、88.5%增加到90.7%。对于Skeleton-Kinetics数据集,从表2中可以看出,我们的选择性超图卷积网络模型以38.0%的Top-1准确率和61.1%的Top-5准确率达到了最先进的水平。它证明了我们提出的选择性超图卷积网络模型可以选择性地提取丰富的多尺度上下文信息,并自适应地聚合时间关键帧特征。这对于骨架动作识别是非常有帮助的,能极大地弥补先前方法所存在的缺点。需要说明的是,在表1和表2中,方法列中给出的都是具体的算法网络,其对应的中文名称如下:Deep LSTM:深度长短期记忆网络;TCN:时间卷积网络;ST-GCN:时空图卷积网络;AS-GCN:动作结构图卷积网络;2s-AGCN:双流自适应图卷积网络;DGNN:有向图神经网络;PL-GCN:部位图卷积网络;NAS-GCN:神经搜索图卷积网络;Mix Dimension:混合维度;MS-AAGCN:多流注意力图卷积网络;BAGCN:双向注意性图卷积网络;Sym-GCN:共生图卷积网络;VA-LSTM:视图自适应循环网络;GC-LSTM:图卷积长短期记忆网络;AGC-LSTM:自适应图卷积长短期记忆网络;Clips+CNN+MTLN:片段卷积网络;3scale ResNet152:多尺度残差网络。

本实施例的其他部分与上述实施例1-5任一项相同,故不再赘述。

以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号