首页> 中国专利> 用于手势检测和手势识别的多模态多任务模型及其训练方法

用于手势检测和手势识别的多模态多任务模型及其训练方法

摘要

本发明提供一种用于手势检测和手势识别的多模态多任务模型及其训练方法,所述模型包括模态特征提取模块、多模态融合模块、模型多任务分类模块。本发明利用多模态通道注意力机制融合挑选与任务相关的多模态特征信息,利用软注意力值,动态调节多任务损失函数中不同任务的权重值,以使模型实时调整多个任务在训练网络中的重要性,使得模型可以同时能够获得多个任务较好的结果。

著录项

  • 公开/公告号CN112966644A

    专利类型发明专利

  • 公开/公告日2021-06-15

    原文格式PDF

  • 申请/专利权人 中国科学院计算技术研究所;

    申请/专利号CN202110311898.4

  • 申请日2021-03-24

  • 分类号G06K9/00(20060101);G06K9/46(20060101);G06K9/62(20060101);G06N20/00(20190101);

  • 代理机构11280 北京泛华伟业知识产权代理有限公司;

  • 代理人王勇

  • 地址 100190 北京市海淀区中关村科学院南路6号

  • 入库时间 2023-06-19 11:26:00

说明书

技术领域

本发明涉及多模态融合领域,具体涉及多任务学习领域,更具体涉及用于手势检测和手势识别的多模态多任务模型及其训练方法。

背景技术

在人机交互领域中,识别人体手势具有非常重要的研究意义和应用价值,如虚拟环境、导航、手语识别等辅助系统。因此,许多科研从事者在手势识别方面做了大量的研究工作。高精度的手势检测和分类是一项有意义且艰难的研究工作。此外,为了计算机更好地理解人类世界,更好地与人类交互,研究者们引入多种模态数据来弥补单一模态模型的缺点,从而多模态研究领域快速发展,多模态机器学习(Multimodal Machine Learning,MML)已成为当前的研究热点。

更进一步地,随着多任务学习(Multi-task learning)方法的提出,AI要求计算机模拟人类不仅可以同时接受多种信息,也可以同时处理多个任务,并且保证主任务的高效率完成。多模态多任务学习已是当代AI发展的必然趋势,具有巨大的潜力和应用前景。而相关任务之间的有效信息可以起到共享和互补的作用。多个任务的训练模型,不仅可以节约计算资源,节省模型存储空间,还可以提高多任务学习速率,达到高效处理的目的。因此,利用信息的互补性和任务间的联动性提出多模态多任务的手势识别模型是非常具有应用前景和研究意义的。

然而现有技术中,基于多模态的手势识别检测模型大多都是针对单一任务的,没有充分利用模态之间的互补关系,且很少提到利用副线任务去辅助主线任务的多任务方法,存在检测精度不高等问题。其方法有以下缺点:

1.因为复杂的个体差异与观测光照条件不同等问题,微小或雷同的手势很难发现;

2.没有充分挖掘利用多模态之间的关联性和互补性,不同模态之间的信息未得到模型很好的平衡和利用;

3.模型针对单一任务而设计,不能完成多个任务,未能利用多任务的优点,或任务之间的辅助性来实现主任务的高效果表现。因此,需要一种同时处理多种模态信息和多个任务的高鲁棒性、高性能的手势识别模型。

发明内容

为解决上述现有技术中存在的问题,提供一种用于手势检测和手势识别的多模态多任务模型,包括模态特征提取模块、多模态融合模块、模型多任务分类模块,其中,

模态特征提取模块包括分别提取不同模态数据特征的网络结构以及共享特征层,所述模态特征提取模块用于对多模态数据进行预处理,提取共享多模态特征;

多模态融合模块包含多模态通道注意力模块和任务相关特征层,所述多模态融合模块与模态特征提取模块相连接,以所述共享多模态特征作为多模态通道注意力模块的输入,提取融合后的任务相关特征,得到任务相关特征层;

模型多任务分类模块与多模态融合模块相连接,以所述融合后的任务相关特征作为输入,对每个任务进行分类;

其中,在训练过程中所述模态特征提取模块、所述多模态融合模块、所述模型多任务分类模块的网络参数被迭代更新。

优选的,所述模型在训练时基于软注意力机制动态调节多任务损失函数。

优选的,所述多模态通道注意力模块包括上分支和下分支,所述上分支由2D卷积核构成,所述下分支由与上分支尺寸相同的2D卷积核与sigmoid函数构成,上分支输出的模态特征与下分支输出的注意力值通过矩阵相乘得到任务相关的特征。

优选的,所述多模态数据包括视频数据、骨骼数据、音频数据。

优选的,所述多任务损失函数为

L=λ

其中,i表示第i个任务,i=1,2;t为网络训练迭代次数,w

优选的,所述超参数T=2。

本发明还提供一种上述模型的训练方法,包括:

步骤1,采用所述模态特征提取模块提取训练样本的共享多模态特征;

步骤2,采用所述多模态通道注意力模块基于所述共享多模态特征提取融合后的任务相关特征;

步骤3,基于软注意力机制动态调节多任务损失函数;

步骤4,迭代更新多任务损失函数中不同任务损失函数的权重值以及所述模态特征提取模块、所述多模态融合模块、所述模型多任务分类模块的网络参数,直至模型收敛。

本发明还提供一种利上述训练方法生成的模型进行手势检测和手势识别的方法,包括:

步骤1,对待识别手势的多模态数据进行预处理,提取共享多模态特征;

步骤2,基于共享多模态特征,采用多模态通道注意力机制提取融合后的任务相关特征;

步骤3,基于融合后的任务相关特征利用模型多任务分类模块进行手势检测和手势识别。

本发明还提供一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现上述方法的步骤。

本发明还提供一种计算机设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述方法的步骤。

本发明具有如下特点和有益效果:本发明使得模型融合多模态信息的能力更好,检测手势能力更强,并且可以协同处理多个任务,在多个任务预测的精确度方面都有明显的提升。本发明利用多模态通道注意力机制融合挑选与任务相关的多模态特征信息,利用软注意力值,动态调节多任务损失函数中不同任务的权重值,以使模型实时调整多个任务在训练网络中的重要性,使得模型可以同时能够获得多个任务较好的结果。

附图说明

图1示出了根据本发明一个实施例的系统架构。

图2示出了根据本发明一个实施例的网络架构。

图3示出了根据本发明一个实施例的通道注意力模块。

具体实施方式

下面结合附图和具体实施例对本发明加以说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

本发明的系统架构如图1所示,包含3个模块,分别是:模态特征提取模块、多模态融合模块、模型多任务分类模块。各模块功能如下:

模态特征提取模块:该模块用于对多模态数据进行预处理,提取多模态表征。

多模态融合模块:该模块用于对特定任务的多模态信息的融合,是本发明的核心部分。模型基于多模态通道注意力机制进行任务相关的多模态信息融合。针对不同的任务,利用通道注意力机制从共享的特征层中得到与任务相关的特征层。应用该方法可以充分挖掘多种模态之间的关联度,以及多模态信息针对不同任务的影响程度与重要性。利用模态之间的关系,模态与不同任务之间的关系,平衡多模态信息的冗余,挑选出针对任务更加有用的多模态特征信息,从而大大提高模型的针对多个任务的预测能力,减少任务之间的相互干扰。

模型多任务分类模块:该模块主要负责对多个任务多模态融合后的信息进行手势检测和手势识别。当多种模态数据融合后,送入相关任务的全连接层模块,最后根据软注意力机制动态调节多任务损失函数,两个任务协同训练,最后得出有无手势的手势检测结果和手势类别的分类预测结果。

以上简要介绍了本发明的系统结构,下面结合数据集和网络架构详细介绍本发明。

先介绍本发明使用的进行训练和验证的数据集。

根据本发明的一个实施例,本发明使用公开数据集Montalbano数据集进行训练并验证本发明的检测能力。该数据集是Chalearn 2014 Looking at People Challengetrack 3比赛的多模态手势识别数据集的预处理版本。该数据集由四种模态数据组成:RGB视频数据、深度视频数据、骨架数据和音频数据,包含20个表演者执行的意大利手势类别和一个非手势类别。深度视频数据与RGB视频数据的区别在于,与RGB视频数据相比,深度视频数据还包括视频中对象与摄像机的距离,用灰度图表示。

本实施例中利用Montalbano数据集提供的多模态数据完成手势检测与手势识别两个任务,建立模型检测是否存在手势,并且识别21种手势类别。

以上介绍了本发明的使用的数据集,以下介绍网络架构。

本发明涉及机器学习领域,本发明的系统可采用神经网络实现,图2示出了根据本发明一个实施例的系统所包含的网络架构。其中,包括1个共享特征层、1个通道注意力机制模块、2个任务相关特征层和2组全连接层,用于完成手势识别和手势检测两个任务。

以上介绍了数据集和网络架构,以下具体介绍各个模块。

一、模态特征提取模块

模态特征提取模块主要用于对Montalbano数据集中的视频、骨骼、音频模态数据采用不同的网络进行处理,提取不同模态的特征。其包含分别提取不同模态数据特征的网络结构以及共享特征层。

对于视频模态:视频数据包括描述手势的彩色模态和深度模态。本发明分别训练左手网络和右手网络。以左手为例,其模态数据包括彩色模态和深度模态,分别采用表1中的视频网络提取特征,即先用3D卷积提取特征,再使用2D卷积进一步提取。然后融合左手的彩色和深度模态特征,构成左手的视频模态数据特征。右手的特征提取操作与左手相同。最后融合右手和左手模态特征。

对于骨骼模态,利用全连接层提取骨骼特征。

对于音频模态,利用卷积操作得到进一步的特征。

根据本发明的一个实施例,表1给出了用于提取视频、骨骼、音频模态数据特征的网络结构。

表1模态特征提取

通过表1中的网络提取了不同模态的数据的特征,其中,视频特征为一维数据,大小为84,骨骼特征为一维数据,大小为350,音频特征为一维数据,大小为350。

表1中的3个网络分别提取了视频特征、音频特征、骨骼特征的一维数据,为简明起见,图2中仅示出了共享特征层的输出结果。共享特征层的输出是将视频特征、音频特征、骨骼特征的一维数据拼接后得到的一维数据,大小为350+350+84=784。

二、多模态融合模块

如图2所示,多模态融合模块由通道注意力机制模块和任务相关特征层构成。多模态融合模块以模态特征提取模块的输出作为输入,也就是说,将网络中的共享特征层的输出作为输入,针对不同任务,提取任务相关的特征,构成了任务相关特征层。多模态通道注意力机制有以下优点:强化模态与任务相关的有用信息,减弱模态与任务无关的噪声干扰,从而达到高精度的预测不同任务的目标。

以下详细介绍通道注意力机制模块。

通道注意力机制模块用来动态调节针对不同任务的多模态特征组合。针对得到的每个模态特征,将其送入通道注意力机制模块得到表示模态特征与某个任务的不同强弱程度的特征值,将针对每个模态特征得到的新模态特征拼接组合起来即得到针对该任务的任务相关特征层。

采用注意力机制模块,是因为不同的任务所对应的模态细致程度上的组合是不同的。比如手势检测的任务是检测是否有手势,是二分类任务,该任务会比较关注该视频帧中是否出现了手势,不依赖手势细节来判断是属于哪一类别。而手势识别的任务是判断手势类别,结果包含21个分类,该任务会更加关注手势的细节,与手势细节相关的骨骼节点信息以及视频细节信息会更重要,那么在训练过程中就需要得到突出。由此可见,对应于不同的任务,模态特征组合是不同的。

根据本发明的一个实施例,图3示出了通道注意力机制模块的结构。其中,该模块由两个分支构成,上分支由尺寸为2D卷积核构成,用于将原始模态特征进行卷积得到卷积后模态特征,根据本发明的一个实施例,2D卷积核的尺寸为16*3*3;下分支由尺寸与上分支相同的2D卷积核与sigmoid函数共同构成,用于对原始模态特征计算后得到与上分支的卷积后模态特征相同大小的注意力值,此处要指出,这个注意力值也是一个矩阵。将上分支得到的卷积后模态特征与下分支得到的注意力值进行矩阵相乘,得到最终强化选择过后的新模态特征。通过网络的迭代训练,注意力值不断调整,得到的新模态特征即不断调整,那么由新模态特征组合得到的任务相关特征层也会因其变化而动态变化。

本发明通过这种方法,利用模态与任务之间的关联性,可以得到与不同任务相关的特征组合层,以实现不同任务的高效果表现。

三、模型多任务分类模块

如图2所示,模型多任务分类模块包括两组分别对应于手势检测和手势识别任务的全连接层模块,其利用先前融合后的任务相关多模态信息,送入各个任务的全连接层模块进行进一步的分类,最终输出模型的判断结果,即手势检测任务输出是否有手势,手势识别任务输出输入手势属于的类别。

根据本发明的一个实施例,由于多任务训练的高复杂性,为了避免网络在训练阶段因偏向某个任务而造成其他任务的失衡,本发明在训练过程中采用动态调节损失函数的软注意机制。

在软注意机制中,对于手势检测与手势识别两个任务,手势检测任务使用二分类交叉熵损失函数,记为L

L+λ

其中λ

其中,t为网络训练迭代次数,w

通过软注意机制,在迭代训练中动态调节总损失函数中的不同任务损失函数的权重,可以使网络在训练过程中维持多个任务之间的平衡,避免训练网络偏向某个简单任务而忽略了复杂任务的训练需求,以更好实现多个任务联动训练。

根据本发明的一个实施例,还提供基于上述系统的手势检测和手势识别方法,包括:

步骤1,对多模态数据进行预处理,提取共享多模态特征;

步骤2,基于共享多模态特征,采用多模态通道注意力机制提取融合后的任务相关特征;

步骤3,基于融合后的任务相关特征进行手势检测和手势识别。

发明人对本发明的系统进行了实验验证,实验中融合了视频、骨骼、音频模态数据,使用多模态通道注意力机制与软注意机制动态调节损失函数,对不同的多任务损失函数的权重进行了探索实验。手势识别的精度(Accuracy)结果如表2所示。其中,当超参数T=2时,手势检测任务可以达到99.80%的精度,手势21分类任务可以达到95.02%的精度。

表2实验结果

总体来说,本发明利用多模态通道注意力机制根据共享多模态特征针对不同任务提取任务相关的特征,以形成任务相关特征层。针对多任务协同训练,利用软注意力机制动态调节多任务损失函数,实时调整不同任务对模型的重要程度,避免模型在训练阶段因偏向某个易学习训练的任务而忽略其他任务,导致其他任务效果变差等现象。该方法实现了多模态信息更好的融合,协调了多个任务之间的关联性。对比传统的手势检测方法在精确度方面都有明显的提升,且实现了多个任务协同预测的功能。

应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号