首页> 中国专利> 一种基于深度学习的实时手语手势识别系统

一种基于深度学习的实时手语手势识别系统

摘要

本发明公开一种基于深度学习的实时手语手势识别系统,目的是解决现有利用手部骨骼关节点识别手语手势成本昂贵的问题;目前想获取手部骨骼关节点的三维坐标,需要使用可穿戴式的设备或者使用深度摄像头,使得实验成本大大增加,所以本发明利用谷歌MediaPipe框架,只需要使用一个普通摄像头来获得手部的三维坐标点;再通过训练好的深度神经网络GoogLeNet模型,实现实时手语手势识别;同时,本发明相较于传统的图像处理方式,速度更快,准确率更高,大大提高工作效率。

著录项

  • 公开/公告号CN114821783A

    专利类型发明专利

  • 公开/公告日2022-07-29

    原文格式PDF

  • 申请/专利权人 哈尔滨理工大学;

    申请/专利号CN202210448144.8

  • 发明设计人 徐军;高辉;

    申请日2022-04-27

  • 分类号G06V40/20;G06V10/44;G06V10/82;G06N3/04;G06N3/08;

  • 代理机构

  • 代理人

  • 地址 150080 黑龙江省哈尔滨市南岗区学府路52号哈尔滨理工大学西区

  • 入库时间 2023-06-19 16:08:01

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-29

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及人工智能领域,尤其涉及一种基于深度学习的实时手语手势识别系统。

背景技术

据世界卫生组织的数据统计,全球患有听力障碍的疾病的人数超过2.5亿。对于普通人来说一般采用口语结合书面语的方式,适当配合身体姿势和人的表情来进行交际,而聋哑人交流主要是使用手语语言。

手语是一种借助手势来表达使用者意图的肢体语言,其经过手部的形状、位置、运动轨迹和方向来组合成为一个手语词。虽然在日常生活中聋哑人可以使用手语来表达自己的看法,但其中也有诸多不便。比如,大多数普通人并不了解手语,无法与聋哑人进行沟通。因此,手语识别技术便成了聋哑人与世界沟通的一种方法。所谓的手语识别是通过计算机技术对聋哑人使用的手语进行语义分析,进而转化为普通人能看懂或听懂的文字或声音的一种计算机技术。手语识别技术的研究不仅能够对聋哑人的生活学习以及工作条件进行改善和提高,为他们提供更优质的服务。特别是在例如医院,车站等一些公共场所,手语识别技术更加有着广泛的应用,能够帮助聋哑人更好的融入社会,享受生活。同时,手语识别技术也可以应用于双语电视节目的播放、计算机辅助哑语教学、电影特效、虚拟人的研究、医疗研究、游戏娱乐、动画的制作等诸多方面。

目前,本次是主要基于英语手语字母进行手语识别的研究,手语如用口语,有其独立的语系。甚至在每个国家内部都有不同的手语用法,而且各国的风俗习惯大不相同,有时贸然使用手语,还会造成不必要的麻烦或危险。因此英语作为世界上使用最广泛的语言,研究英语字母手语是有很大意义的。

发明内容

本发明的目的在于有效的利用MediaPipe框架的优势,提供一种不借助其他任何复杂传感器的设备,仅凭普通摄像头对英文手语字母的26种手语手势和3种功能手势进行实时识别。该系统通过手部上各特征点到手腕点的空间距离组成一个多维数组,通过训练好的神经网络以及帧流结果稳定原则识别出手语手势。

本发明的目的是这样实现的:对每一种类手语手势进行多角度拍照,将收集的图像组成数据集,利用MediaPipe框架识别手部位置并提取图像中的特征点,通过神经网络的训练实现对29种手语手势进行识别,所述方法包括:

步骤一、利用MediaPipe框架获取手语手势各个特征点的三维坐标信息。

步骤二、根据手部的特征点的三维坐标信息计算各个关节点到手腕特征点的欧式距离。

步骤三、根据上述特征信息计算的欧氏距离组成的数列,代入卷积神经网络模型GoogLeNet,使用三元组损失函数最终识别出待识别的手语手势。

步骤四、取连续m帧识别的手语手势相一致的作为最终确定的识别结果。

进一步地,所述步骤一具体为:通过pycharm集成编译环境利用python语言调用MediaPipe框架识别手部位置,并获得手部各个特征点。

进一步地,所述步骤二具体为:通过上一步骤得到了21个三维坐标点,拿出一个坐标点作为基本点,计算其它20个坐标点到这个点的距离,具体包括:由于手语手势的识别属于静态手语识别,在MediaPipe框架下得到的手部特征点坐标中的0点偏向于手腕位置,手腕位置在手语手势中位置特征信息可以忽略不计,所以基于此点建立三维坐标系,得到其余点到原点的空间距离,形成每一幅图得到一组数据。

进一步地,所述步骤三具体为:将待识别的手语手势带入训练好的卷积模型中,识别出手语手势。具体包括:通过MediaPipe框架得到的一组数据,通过卷积神经网络模型GoogLeNet,损失函数选择使用三元组损失函数TripletLoss,利用三元组损失的函数,拉近相似度高的样本距离,远离相似度低的距离,最后根据最大概率和最近邻匹配准则识别出当前帧的手语手势。

进一步地,所述步骤四具体为:连续读取当前帧的状态,当识别到手部信息开始,连续m帧的稳定结果作为最终预测结果。

本发明的有益效果是:通过MediaPipe框架提取的手部特征点手语字母识别,与通过可穿戴式手语识别设备的方法得到骨骼关键点相比,本发明更加的方便,便宜,实用性强等优点。而相较于传统的图像处理的方式,只要能够识别手部位置和手部的特征点,就不会受到图像拍摄的角度等问题的性影响,使其手语手势的识别更加的准确。

附图说明

图1为本发明基于深度学习的实时手语手势识别系统的流程图。

具体实施方式

参见图1,下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的目的是为了解决现有利用手部骨骼关节点识别手语手势成本昂贵的问题。目前想获取手部骨骼关节的三维坐标,需要使用可穿戴式的设备或者使用深度摄像头,使得实验成本大大增加,所以本发明利用谷歌MediaPipe框架,只需要使用一个普通摄像头来获得手部的三维坐标点。再通过训练好的深度神经网络GoogLeNet模型,实现实时手语手势识别。同时,本发明相较于传统的图像处理方式,泛化能力大大提高,准确率更高,提高工作效率。

本发明提出一种基于深度学习的实时手语手势识别系统,所述方法包括:

步骤一、选择几名实验者对29种手语手势进行多角度拍照,利用MediaPipe框架获取手语字母各个特征点的三维坐标信息。

步骤二、根据手部的特征点的三维坐标信息计算各个关节点到手腕特征点的欧式距离。

步骤三、根据上述特征信息计算的欧氏距离组成数列,带入卷积神经网络模型GoogLeNet进行预分类,利用三元组损失函数TripletLoss最终识别出待识别的手语手势。

步骤四、取连续m帧识别的手语手势相一致的作为最终确定的识别结果。

进一步地,所述步骤一具体为:通过pycharm集成编译环境利用python语言调用MediaPipe框架识别手部位置,并获得手部各个特征点。

进一步地,所述步骤二具体为:通过上一步骤得到了21个三维坐标点,拿出一个坐标点作为基本点,计算其它20个坐标点到这个点的距离,具体包括:由于手语字母的识别属于静态手语识别,在MediaPipe框架下得到的手部特征点坐标中的0点偏向于手腕位置,手腕位置在字手语手势中位置特征信息可以忽略不计,所以基于此点建立三维坐标系,得到其余点到原点的空间距离,形成每一幅图得到一组数据。

进一步地,所述步骤三具体为:在PyTorch上,将不同手语手势进行分类,并按照6:2:2分为训练集、验证集和测试集。再通过神经网络GoogLeNet模型上进行训练,输入通过MediaPipe框架从一个图像变成一个多维数组,优化器采用带动量的随机梯度下降法,动量设置为0.9,初始学习率设置成2*10-3,随着迭代次数的增加,学习率减小,损失函数选择使用三元组损失函数TripletLoss,预训练模型迭代周期epoch为100进行训练,最后得到神经网络GoogLeNet模型参数。之后再验证集和测试集上进行测试,验证模型的准确率。

进一步地,所述步骤四具体为:连续读取当前帧的状态,当识别到手部信息开始,连续m帧的稳定结果作为最终预测结果。

本发明实现了一种基于深度学习的实时手语手势识别系统。该系统通过训练数据得到GoogLeNet神经网络模型参数,利用三元组损失函数,可以在保证准确率的情况下,实现对29种手语手势的分类。

以上对本发明所提出的一种基于深度学习的实时手语手势识别方法,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号