首页> 中国专利> 基于深度信息的手势识别机器学习方法及系统

基于深度信息的手势识别机器学习方法及系统

摘要

本发明公开了一种基于深度信息的手势识别机器学习方法及系统,该方法包括步骤:获取多种场景下的若干幅手势深度图像构成样本集,并对手势深度图像中的手势位置和手势类型进行标记;构造时间+空间的多层卷积网络,并基于样本集进行训练,且训练过程中,利用预定义的关节间的链接矩阵,对卷积网络的手势模型进行权重传播。本发明仅在链接的骨骼关节上进行卷积,这种划分“局部区域”的方式可有效降低训练难度,因此可以节省计算资源,提高计算速度,且也可以提升训练的准度。

著录项

  • 公开/公告号CN112329544A

    专利类型发明专利

  • 公开/公告日2021-02-05

    原文格式PDF

  • 申请/专利权人 香港光云科技有限公司;

    申请/专利号CN202011089687.2

  • 发明设计人 谢永明;

    申请日2020-10-13

  • 分类号G06K9/00(20060101);G06K9/42(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构44561 广东合方知识产权代理有限公司;

  • 代理人许建成

  • 地址 中国香港新界沙田科学园科技大道西6号集成电路开发中心8楼802B

  • 入库时间 2023-06-19 09:47:53

说明书

技术领域

本发明涉及计算机视觉技术领域,尤其是基于深度信息的手势识别机器学习方法及系统。

背景技术

手势识别方法在人机交互中起着重要作用。手势识别方法可以分为静态和动态两种。静态识别是从单个图像识别手势,因此运行速度更快,而动态识别是从一系列图像识别手势,因此需要以高精度的手势识别为技术依托。随着硬件的快速发展,动态识别方法越来越受到关注。

公告号为CN 108717524 A的中国发明,公开了一种基于双摄手机和人工智能系统的手势识别系统及方法,利用双摄手机和机器学习实现人体手势的识别,该发明使用双RGB彩色摄像头组进行手势数据图像的采集,且增加了深度信息,具有更精确的手势信息,可一定程度上提升手势提取和识别的准确率。然而该方法中,从双摄的左右视差进行深度信息的提取,需要耗费极大的计算资源,尤其在只有定量电池的移动设备上,比如会导致电池的大量消耗,并拖慢整个系统的运行速度。

发明内容

为了改善现有技术中存在的上述技术缺陷,本发明提供了一种基于深度信息的手势识别机器学习方法及系统,不仅提高手势信息提取的准确度,而且还降低了算法的复杂度,提升系统的计算速度。

为实现上述目的,本发明提供了以下技术方案:

第一方面,一种基于深度信息的手势识别机器学习方法,包括以下步骤:

获取多种场景下的若干幅手势深度图像构成样本集,并对手势深度图像中的手势位置和手势类型进行标记;

构造时间+空间的多层卷积网络,并基于样本集进行训练,且训练过程中,利用预定义的关节间的链接矩阵,对卷积网络的手势模型进行权重传播。

在第一方面的第一可实施方案中,训练过程中,上层关节链正向传播到下一层卷积网络。

在第一方面的第二可实施方案中,上述方法还包括步骤:对获取的手势深度图像进行随机剪裁,并对剪裁后的图像中的手势位置和手势类型进行标记,并作为扩充样本存入样本集中。

在第一方面的第三可实施方案中,所述时间+空间的多层卷积网络的卷积层数大于等于2。

在第一方面的第四可实施方案中,上一层关节链正向传播到下一层卷积网络时,通过如下公式进行传播,

在第一方面的第五可实施方案中,所述关节间的链接矩阵基于手部骨架模型而定义,所述手部骨架模型包括21个关节及关节之间的连接。

第二方面,本发明实施例还提供了一种基于深度信息的手势识别机器学习系统,包括:

图像收集模块,利用ToF相机采集多种场景下的若干幅手势深度图像;

样本构造模块,用于采集的对手势深度图像中的手势位置和手势类型进行标记,标记后的手势深度图像构成样本集;

模型训练模块,用于构造时间+空间的多层卷积网络,并基于样本集进行训练,且训练过程中,利用预定义的关节间的链接矩阵,对卷积网络的手势模型进行权重传播。

在第二方面的第一可实施方案中,所述模型训练模块在训练过程中,上层关节链正向传播到下一层卷积网络。

第三方面,本发明实施例提供了一种电子设备,包括:

存储器,用于存储程序指令;

处理器,用于与所述存储器相连接,执行存储器中的程序指令,实现本发明实施例任一实施方式所述基于深度信息的手势识别机器学习方法中的步骤。

第四方面,本发明实施例提供了一种包括计算机可读指令的计算机可读存储介质,所述计算机可读指令在被执行时使处理器执行本发明实施例任一实施方式所述基于深度信息的手势识别机器学习方法中的操作。

与现有技术相比,本发明具有以下有益效果:

(1)本发明仅在链接的骨骼关节上进行卷积,这种划分“局部区域”的方式可有效降低训练难度,因此可以节省计算资源,提高计算速度。

(2)本发明提出了基于骨骼关联性的动态手势识别的时间+空间多层神经网络,可以满足手部骨架建模及手势识别中的特定需求。并且,深度手势图像的加入和21个关联关节的定义,让手势图像信息多了一个纵深的维度,也在一定程度上提升了手势判断的准度。

(3)样本是通过ToF相机采集的基于深度信息的手势图像,相较于2D手势图像,可降低人工判断的参与程度,在保证训练模型的卓越性能的同时,在手动干预上的工作量则大大减少。只使用了ToF的数据,而无需高分辨率的RGB图像信息,也极大的降低了数据的运算量,提升了系统的计算效率。

(4)既可以通过本发明系统训练学习简单的操作手势,又可以训练具有连贯性的手势,如手语等,提升了该手势识别的应用范围。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1本发明中基于深度信息的手势识别机器学习方法的流程图。

图2a为不带关节标号的手部骨架模型图,图2b为带关节标号的手部骨架模型图。

图3为为时间+空间的多层卷积训练网络示意图。

图4为实施例中基于深度信息的手势识别机器学习系统的结构框图。

图5本发明中电子设备的结构简化图。

具体实施方式

下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为本实施例中提供的基于深度信息的手势识别机器学习方法的流程图。请参阅图1,该方法包括以下步骤:

S10,获取多种场景下的手势深度图像作为图像样本,并对手势深度图像中的手势进行标记。大量的图像样本构成训练所需的样本集。

本步骤中,手势深度图像采用ToF(Time of Flight)相机采集获得。

一般地,机器学习所需要的样本量较大,如果自然场景下获取的样本量不够,也可以通过人为构造样本进行扩充。例如,对获取的手势深度图像进行随机剪裁,例如对两个不同的手势进行插值,求得多个中间的手势,并对剪裁后的图像中的手势进行标记,得到扩充样本,此时,扩充样本和实际采集的样本共同构成训练所需的样本集。扩充样本后,可以提高训练所得模型的准确性。

对手势进行标记包括对手势位置和手势类型进行标记,手势位置标记是指在手势深度图像中手部位置(手部轮廓)进行简单的人工标记,以利于程序能根据标记来找到准确的人手位置。手势类型进行标记是指对手势动作的类型进行标记,例如手势动作的类型包括抓取、点击、扩大、捏、选择、滑动、各向平移等动作。

S20,构建时间+空间的多层卷积训练网络,并利用样本集对该多层卷积训练网络进行训练,得到手势模型。训练过程中,上层关节链正向传播到下一层卷积网络,直至训练完成。

训练过程中,根据手势深度图像样本中标记的手部轮廓位置进行物体的分割,将疑似手部轮廓从手势深度图像样本中提取出来,然后将提取出的疑似手部轮廓与预先定义的手部骨架模型进行形态对比,以确认场景中是否有手部模型的存在。

手势深度图像中已经对手部轮廓进行了标记,此处提取出的手部轮廓具有较高的准确性。但是也可能存在标记错误的情况,因此称为疑似手部轮廓,此处将提取出的疑似手部轮廓再与手部骨架模型进行对比,即实现样本中是否有手部轮廓的二次确认,可以提高提取出的手部轮廓的准确性。

如图2a所示,本实施例中提供了一个局部21个关节的手部骨架模型,圆点代表了手部各关节,手部关节之间的体内连接是根据人手的自然连接定义的。并对手部骨架模型中的关节点进行了数字标记,如图2b所示,0表示手腕,1-4是大拇指,5-8是食指,9-12是中指,13-16是无名指,17-20是小指,并用21根边来定义这21个关节的自然连接。

针对于深度图像而言,手部轮廓信息是基于时间的手势操作信息,例如食指点击,将激发确认的操作,在深度信息上,就是食指的末端关节最近,关联关节依次渐远,其他关联性弱或无关联的关节在最远处。

请参阅图3,为时间+空间的多层卷积训练网络示意图,针对手势样本集的数据,将J

其中,i表示特征图(每一层神经网络计算并匹配一次手势的特征图)的层次,J表示关节,M表示与J

时间+空间多层卷积训练网络的输入数据为由两幅相邻帧的相位Raw图所计算得到的2张深度图像组,经过concat操作,其大小将被转换为320*240*2,(其中X*Y为ToF相机的分辨率大小,实例中采用的ToF相机的分辨率为320*240),整个网络结构由卷积层、三个下采样层、六个残差块和三个上采样层组成。每个下采样层包含一个卷积层和一个LeakyReLU层,内核大小为4×4,步幅为2。四次下采样后,图像的大小变为20×15×256。每个上采样层包括一个卷积层和一个LeakyReLU层,内核大小为4×4,步幅为1/2。本网络中,在第i个下采样层之后的卷积层与第4个i上采样层之后的卷积层之间添加了跳过连接,以提高最终结果的准确性。

动态手势识别的时间+空间训练网络对链接关节之间的关系进行了限制运算,实现第一层的卷积运算,也就是在每个手势进行模型训练的第一步,需要提供关节的链接关系做一些过滤,以减少运算量,同时减少非关联关节间的错误手势识别,以便提高准确率。

S30,利用预定义的关节间的链接矩阵,对卷积网络的手势模型进行权重传播,以进一步提升手势定义的准确度。

这里的手势模型是指手势的动态动作,可以理解为由一系列手部骨架模型构成的一个特定的手势。

关节与关节之间存在有效关联和无效关联,有效关联是指本关节的运动会牵动其他关节,无效关联是指本关节的运动不会牵动其他关节。例如,大拇指的2号关节运动,只会直接牵动与其关联的1和3号关节,然后传播影响0和4号关节,而基本不会或极少影响到其他四根手指上的末端几个关节,此时2号关节与1/3/0/4号关节之间即为有效关联,而与其他四根手指上的关节即为无效关联。

为了限制各关节间的无效关联,此处构建了一个关节间的关联矩阵,此矩阵大小是4x4的,一个可有的关联矩阵示例如下所示:

该关联矩阵表达了各关节之间活动的关联性,该矩阵中的元素由每两个关节的关联关系(也就是本关节与周边关节的牵动情况)决定,列向量表示关节本身,行向量表示链接到它们的关节。每一列向量,即关节权重的总和为1。关联矩阵是单独定义的一个矩阵,用来在卷积运算进行向前传播时,用于表述关节约束关系的,根据不同动作中手势动作的差别,数值会有变化。

通过预定义的关节间的链接矩阵,在训练时仅在链接的骨骼关节上进行卷积(矩阵中的为0的关节不参与卷积计算),这种划分“局部区域”的方式可有效降低训练难度并提升训练的准度。

对时间+空间多层卷积训练网络进行多层训练后得到的手势模型,再进行一次权重传播,其公式如下:

l

其中l

请参考图4,基于相同的发明构思,本实施例中提供了一种基于深度信息的手势识别机器学习系统,包括图像收集模块、样本构造模块和模型训练模块。

其中,图像收集模块利用ToF相机采集多种场景下的若干幅手势深度图像。

样本构造模块用于采集的对手势深度图像中的手势位置和手势类型进行标记,标记后的大量手势深度图像构成样本集。

模型训练模块用于构造时间+空间的多层卷积网络,并基于样本集进行训练,且训练过程中,利用预定义的关节间的链接矩阵,对卷积网络的手势模型进行权重传播。关节间的链接矩阵基于手部骨架模型而定义,所述手部骨架模型包括21个关节及关节之间的连接,如图2b所示。

在一个实施方案中,样本构造模块还可以对获取的手势深度图像进行随机剪裁,例如对两个不同的手势进行插值,求得多个中间的手势,并对剪裁后的图像中的手势进行标记,得到扩充样本,此时,扩充样本和实际采集的样本共同构成训练所需的样本集。

在一个实施方案中,模型训练模块在训练过程中,上层关节链正向传播到下一层卷积网络,直至训练完成。时间+空间的多层卷积网络结构由卷积层、三个下采样层、六个残差块和三个上采样层组成。上一层关节链正向传播到下一层卷积网络时,通过如下公式进行传播,

系统中的各个模块所执行的步骤或实现的功能,此处未描述之处,请参见前述方法实施中的相关描述,此处不再赘述。

请参考图5,本实施例中提供了一种电子设备,可以为单独的设备,也可以是多功能设备的一部分,该多功能设备诸如移动电话、平板计算机、个人数字助理、便携式音乐/视频播放器、可穿戴设备或包括图像处理设备的其他电子设备。另外,在一些实施方式中,上述设备可以是经由网络连接到其他网络设备,例如其他移动设备、平板设备、台式设备以及包括服务器等的网络存储设备。

其中,其他传感设备包括但不限于接近传感器、加速计、陀螺仪等,CPU可以是片上系统(SoC),注入在移动设备中的片上系统,并且包括一个或多个专用图像处理单元(GPU),单CPU不限于单处理器,也可包括相同类型或不同类型的多个处理器。

在一些实施方式中,本发明上述设备包括的Memory包括一种或多种类型的存储器,用于结合处理器(CPU)执行设备功能。Memory类型包括高速缓存、ROM或RAM。Memory在执行期间存储各种编程模块以供处理器执行其中的程序,例如本实施例中,Memory在执行期间存储基于深度信息的手势识别机器学习系统中的样本构造模块和模型训练模块。

本发明实施例还提供一种存储有计算机可读指令的存储介质,其中所述计算机可读指令使得电子设备执行本发明方法所包含的操作步骤。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号