首页> 中国专利> 一种基于动态手势识别的手语翻译交流系统

一种基于动态手势识别的手语翻译交流系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于动态手势识别的手语翻译交流系统，包括手语翻译模块和语音识别模块，所述手语翻译模块包括依次连接的手语手势获取模块、手语手势识别模块、第一文字显示模块和语音播放模块，所述语音识别模块包括依次连接语音获取模块、语音识别模块、第二文字显示模块和手语动画演示模块。本发明可以解决聋哑人之间以及聋哑人和正常人之间的实时交流问题。

著录项

公开/公告号CN108615009A

专利类型发明专利
公开/公告日2018-10-02

原文格式PDF
申请/专利权人山东师范大学;
展开▼

申请/专利号CN201810373367.6
发明设计人吕蕾;李燕;张凯;张桂娟;刘弘;
展开▼

申请日2018-04-24
分类号G06K9/00(20060101);G06N3/04(20060101);G10L15/26(20060101);
代理机构37221 济南圣达知识产权代理有限公司;
代理人赵妍
地址 250014 山东省济南市历下区文化东路88号
入库时间 2023-06-19 06:40:10

法律信息

法律状态公告日

法律状态信息

法律状态
2019-07-23

授权

授权
2018-10-30

实质审查的生效 IPC(主分类):G06K9/00 申请日:20180424

实质审查的生效
2018-10-02

公开

公开

说明书

技术领域

本发明涉及一种手语翻译交流系统，特别涉及一种基于动态手势识别的手语翻译交流系统。

背景技术

目前我国的聋哑人数量巨大，已达到了上千万人，并且每年以一定的速度在快速增长。由于大多数正常人看不懂手语，所以使得聋哑人与正常人之间的交流存在很大的障碍。

我国目前手语翻译领域仍然处于起步阶段，一些有关手语翻译的系统仍停留在实验室阶段甚至是概念阶段。

目前手语翻译相关的系统主要有手语翻译数据手套、手语翻译臂环以及基于Kinect的手语翻译产品。人们使用基于数据手套的手语识别系统必须要穿戴复杂的数据手套，不具便携性，并且该系统价格比较昂贵；手语翻译臂环的识别不连贯并且要求使用人员的手语手势十分规范，没有达到很好的识别效果；基于Kinect的手语翻译系统因设备体积太大，所以无法便携。

发明内容

为了解决现有技术的不足，本发明提供了一种基于动态手势识别的手语翻译交流系统，该手语翻译系统的翻译精度更高、功能更加齐全、操作更加简单且价格更加低廉。

为了实现上述目的，本发明的技术方案如下：

一种基于动态手势识别的手语翻译交流系统，包括手语翻译模块和语音识别模块；

所述手语翻译模块，被配置为：

获取动态手语手势；

对手语手势图像进行特征提取与时序建模，并输出手语标签时序序列，完成对手语手势的识别；

对手语标签进行句子合成，并利用显示屏对句子进行展示，同时将句子以语音形式进行播放；

所述语音识别模块，被配置为：

获取语音；

对语音数据进行识别处理，得到离散词汇；

根据离散词汇在手语手势动画数据库中获取对应手势动画进行拼接，并通过显示屏进行演示。

进一步的，所述手语翻译模块包括依次连接的手语手势获取模块、手语手势识别模块、第一文字显示模块和语音播放模块，所述语音识别模块包括依次连接语音获取模块、语音识别模块、第二文字显示模块和手语动画演示模块。

进一步的，所述手语手势获取模块通过摄像头对动态手语手势进行获取，并对获取到的每一帧图像的大小进行统一调整后，以数组的形式存储到内存队列中。

进一步的，所述手语手势识别模块采用多层卷积神经网络对内存队列中的手语手势图像进行多次特征图提取，并采用长短期记忆神经网络对提取的特征图进行时序建模，输出手语标签的时序序列，完成手语手势的识别。

进一步的，所述第一文字显示模块采用循环神经网络对手语手势识别模块的手语标签进行句子合成，并利用显示屏对句子进行展示。

进一步的，所述句子合成过程包括：

根据手语标签形成离散词汇，根据输入的离散词汇结合已有的中文语料数据库，选取相似度最大的模板语料生成初始的句子；

通过循环神经网络结构将该句子进行初始化，通过网络迭代进行句子修正，在修正过程中，采用相似词替换方式增加句子的准确性和连贯性。

进一步的，所述语音播放模块用于将第一文字显示模块中生成的句子以语音形式进行播放。

进一步的，所述语音获取模块通过声波方式采集语音数据，并以数组的形式存储到内存中，所述数组在列维度上表示实时的声波数组，在行维度上表示声波的声学特征。

进一步的，所述语音识别模块采用端到端的循环神经网络算法对采集到语音声波数据进行处理识别，得到离散词汇，并将离散词汇通过第二文字显示模块进行显示，所述语音识别模块尾部，还添加有CTC语言模型。

进一步的，所述手语动画演示模块根据语音识别模块得到的离散词汇在手语手势动画数据库中进行检索，检索完毕后，根据之前的词汇顺序将检索的动画片段进行拼接，并通过显示屏进行演示。

所述手语手势动画数据库中每一个离散词汇对应一个固定动画。

与现有技术相比，本发明的有益效果是：

1)本发明基于动态识别的手语翻译交流系统，根据RGB图像进行处理，提高识别准确度；使用深层卷积神经网络，可以更好地提取图像的细粒度级特征；使用长短期记忆神经网络，对动态手语手势的时序特征图进行建模，可以通过后序的帧对前面帧的识别进行修正，充分利用了时序维度上的特征，提高了动态识别的精确度；句子生成部分使用循环神经网络算法，在生成第t个位置的词汇时，能够结合前t-1个词汇的信息，提高了句子的连贯性和可读性。

2)本发明语音识别模块采用端到端的声学识别技术，利用循环神经网络算法，有效的利用时序维度特征，并自动提取声波的特征信息，在识别模块尾部，添加CTC语言模型，进一步提高识别精度，使得识别结果更符合实际。具有文字显示、语音播放、手语动画演示等齐全的功能，即将聋哑人的手语手势和正常人的语音的识别结果均可转换成文字形式显示在液晶屏上，也可通过语音播放文字内容，还可以通过手语的动画演示将文字内容表达出来。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本发明的基于动态手势识别的手语翻译交流系统的结构框图；

图2为本发明的基于动态手势识别的手语翻译交流系统的工作流程图；

图3为本发明的基于动态手势识别的手语翻译交流系统的用于手势识别的CNN-LSTM结构图。

具体实施方式

下面结合附图与具体实施例对本发明做进一步的说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在本发明中，术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系，只是为了便于叙述本发明各部件或元件结构关系而确定的关系词，并非特指本发明中任一部件或元件，不能理解为对本发明的限制。

本发明中，术语如“固接”、“相连”、“连接”等应做广义理解，表示可以是固定连接，也可以是一体地连接或可拆卸连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员，可以根据具体情况确定上述术语在本发明中的具体含义，不能理解为对本发明的限制。

正如背景技术所介绍的，现有技术中存在聋哑人与正常人交流困难，而手语翻译系统仍然处于起步阶段，无法达到很好的翻译效果的问题，为了解决如上的技术问题，本申请提供了一种基于动态手势识别的手语翻译交流系统，该手语翻译系统的翻译精度更高、功能更加齐全、操作更加简单且价格更加低廉。

一种基于动态手势识别的手语翻译交流系统，包括手语翻译模块和语音识别模块；

所述手语翻译模块，被配置为：

获取动态手语手势；

对手语手势图像进行特征提取与时序建模，并输出手语标签时序序列，完成对手语手势的识别；

对手语标签进行句子合成，并利用显示屏对句子进行展示，同时将句子以语音形式进行播放；

所述语音识别模块，被配置为：

获取语音；

对语音数据进行识别处理，得到离散词汇；

根据离散词汇在手语手势动画数据库中获取对应手势动画进行拼接，并通过显示屏进行演示。

如图1所示，所述手语翻译模块包括依次连接的手语手势获取模块、手语手势识别模块、第一文字显示模块和语音播放模块，所述语音识别模块包括依次连接语音获取模块、语音识别模块、第二文字显示模块和手语动画演示模块。

如图2所示，正常人的语音通过本系统的识别处理以及手语演示后，可以转变为手语，而聋哑人的手语通过本系统的识别处理后，可以转变为语音信息，因此通过本系统，可以实现正常人与聋哑人的有效交流。

具体实施中：

所述手语手势获取模块通过普通的RGB摄像头对动态手语手势进行获取。

所述手语手势获取模块利用RGB彩色摄像头对实时的场景进行摄像，利用Python语言调用OpenCV函数库创建VideoCapture对象来获取当前实时的帧。对于第t个时刻而言，首先使用之前构建的VideoCapture对象获取一帧对象，记做I_t。为了降低算法的计算复杂度，统一将图像调整为[368,368,3]尺寸的图像，第一维表示行，第二个维度表示列，第三个维度表示通道。将获取到的每一帧图像以数组的形式存储到内存队列中，为了避免内存队列内存溢出，设置队列的最大长度为max_length，由摄像头采集的图像从队列尾部进队，进行识别的模块从队列首部进行数据提取，当队列的总长度达到最大长度时，从队列首部进行数据删除。

所述手语手势识别模块采用多层卷积神经网络对内存队列中的手语手势图像进行多次特征图提取，并采用长短期记忆神经网络对提取的特征图进行时序建模，输出手语标签的时序序列，完成手语手势的识别。

所述手语手势识别模块通过调用OpenCV的resize函数对图像进行调整。将调整后的图像输入到深度卷积神经网络中进行处理。

所述深度卷积神经网络第一层为卷积层，卷积核尺寸为[96,11,11,3],第一维表示卷积核的个数,第二维表示卷积核的高度，第三行表示卷积核的宽度，第四维表示卷积核的通道数，将卷积核分别沿着x方向和y方向进行滑动，步长均为4，卷积后采用relu函数进行激活，relu函数属于线性分段函数，可以同时降低前向传播计算复杂度和反向传播的梯度的计算复杂度。卷积操作是属于线性操作，通过进行非线性激活，更有效的表达的特征映射关系。将卷积后的结果进行池化操作，池化区域为[3,3]，池化方式为最大池化，即选取[3,3]区域中的最大值作为新的像素，其他的像素删除，池化窗口的步长为3，通过池化操作，图像的通道数不变，长宽减小，从而抑制过拟合现象。然后对池化后的结果进行局部响应归一化(LRN)，进一步提高模型的泛化能力。

所述深度卷积神经网络第二层采用卷积核为[256,7,7,3]的卷积核进行处理，步长为2，采用relu函数进行激活，然后使用最大池化方式进行池化操作，窗口大小为[3,3]，滑动步长为2。最后使用局部响应归一化进行处理。

所述深度卷积神经网络第三层采用卷积核为[256,5,5,3]的卷积核进行处理，步长为1，采用relu函数进行激活，然后使用最大池化的方式进行处理，池化窗口为[2,2],步长为2，最后使用局部响应归一化进行处理。经过上述三层操作后，再进行四层纯卷积操作，卷积核均为[384,3,3,3],激活函数均为relu函数。

将三次卷积操作得到的图像连接到全连接层，全连接层一共两层，每一层的后面都会进行Dropout处理，也就是随机性的忽略某些单元不参与下一步的运算过程，随机的概率设置为0.5。两个全连接层均为4096个神经单元，激活函数为tanh函数。将得到的4096维的向量输入到第t个时刻的LSTM单元中进行计算，LSTM单元的输出一个方向作为P_t(第t个时刻的预测值)，另一个方向作为第t+1个时刻的LSTM单元的输入，与t+1时刻由CNN得到的特征向量一起进行第t+1时刻的预测。LSTM单元的输出结果为一个概率向量，向量维度为所有手语手势的总数，选取概率向量中数值最大的位置对应的手语做为第t个时刻的预测值。

每当第t个时刻的LSTM单元完成输出结果，才会调用VideoCapture获取下一帧的图像重新进行CNN运算，如图3所示。

本申请中设置一个判断函数，当连续10帧中检测不到手势运动时，判断为一个句子的结束。

所述第一文字显示模块采用循环神经网络对手语手势识别模块的手语标签进行句子合成，并利用显示屏对句子进行展示。

所述句子合成过程包括：

根据手语标签形成离散词汇，根据输入的离散词汇结合已有的中文语料数据库，选取相似度最大的模板语料生成初始的句子；

通过循环神经网络结构将该句子进行初始化，通过网络迭代进行句子修正，在修正过程中，采用相似词替换方式增加句子的准确性和连贯性。

所述语音播放模块用于将第一文字显示模块中生成的句子以语音形式进行播放。

所述语音播放模块使用python语言调用pyttsx库进行对文字和语音的转换，使用pyttsx.init()初始化转换引擎对象engine，然后使用engine.say(text)的方式进行语音播报，text为需要进行转换的文本，在该过程实现中，会重新构建一个线程与之前的识别模块独立，在该线程中设置一个事件监听函数对识别模块进行监听，每当识别模块输出一个完整的句子时，该线程启动engine.say()方法进行转换

所述语音获取模块通过声波方式采集语音数据，并以数组的形式存储到内存中，所述数组在列维度上表示实时的声波数组，在行维度上表示声波的声学特征。

所述语音识别模块采用端到端的循环神经网络算法对采集到语音声波数据进行处理识别，得到离散词汇，并将离散词汇通过第二文字显示模块进行显示，为提高端到端的算法的识别强度，在网络算法的后期处理阶段结合CTC语言模型增加识别精度。

所述手语动画演示模块根据语音识别模块得到的离散词汇在手语手势动画数据库中进行检索，检索完毕后，根据之前的词汇顺序将检索的动画片段进行拼接，并通过显示屏进行演示。

所述手语手势动画数据库中每一个离散词汇对应一个固定动画。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于动态手势识别的手语翻译交流系统 [P] . 中国专利： CN108615009B . 2019.07.23
2. 基于动态手势识别的手语翻译方法、装置、计算机设备及存储介质 [P] . 中国专利： CN112699758A . 2021-04-23
3. SIGN LANGUAGE INTERPRETING SYSTEM OF BASED ON WEB CONTENTS AND METHOD FOR SIGN LANGUAGE INTERPRETING SYSTEM [P] . 韩国专利： KR20150102148A . 2015-09-07

机译：基于Web内容的手语翻译系统及手语翻译系统的方法
4. IMAGE PROCESSOR COMPRISING GESTURE RECOGNITION SYSTEM WITH STATIC HAND POSE RECOGNITION BASED ON DYNAMIC WARPING [P] . 美国专利： US2016026857A1 . 2016-01-28

机译：基于动态包裹的具有静态手势识别的图像处理手势识别系统
5. IMAGE PROCESSOR COMPRISING GESTURE RECOGNITION SYSTEM WITH STATIC HAND POSE RECOGNITION BASED ON DYNAMIC WARPING [P] . 世界知识产权组织专利： WO2015112194A3 . 2015-11-05

机译：基于动态包裹的具有静态手势识别的图像处理手势识别系统