首页> 中国专利> 手语翻译、客服、通信方法、设备和可读介质

手语翻译、客服、通信方法、设备和可读介质

页面导航

摘要
著录项
说明书
相似文献

摘要

本申请实施例提供了一种手语翻译、客服、通信方法、设备和可读介质，以便捷的进行手语翻译。所述方法包括：获取手语视频数据；依据手语识别模型对所述手语视频数据进行手语识别，依据手语识别结果确定对应的手语翻译信息，其中，所述手语识别模型用于提取所述手语视频数据的手语结构化特征，并依据所述手语结构化特征进行手语识别；输出所述手语翻译信息。能够基于显式地手语结构化特征增强手语识别网络的学习能力，提升最终的识别精度，输出所述手语翻译信息，从而便捷的进行手语翻译。

著录项

公开/公告号CN113822186A

专利类型发明专利
公开/公告日2021-12-21

原文格式PDF
申请/专利权人阿里巴巴达摩院(杭州)科技有限公司;
展开▼

申请/专利号CN202111059974.3
发明设计人程荣亮;王琪;张邦;潘攀;徐盈辉;
展开▼

申请日2021-09-10
分类号G06K9/00(20060101);G09B21/04(20060101);
代理机构11319 北京润泽恒知识产权代理有限公司;
代理人钱秀茹
地址 311121 浙江省杭州市余杭区五常街道文一西路969号3幢5层516室
入库时间 2023-06-19 13:46:35

说明书

技术领域

本申请涉及计算机技术领域，特别是涉及一种手语翻译方法、一种手语客服方法、一种手语通信方法、一种手语教学方法、一种终端设备和一种机器可读介质。

背景技术

听障人士、聋哑人士等通常是通过手语进行沟通，手语(sign language)是用手势比量动作，根据手势的变化模拟形象或者音节以构成的一定意思或词语，它是听力障碍或者无法言语的人互相交际和交流思想的一种手的语言。

然而在日常生活中，能够掌握手语的人员非常少，使得听障人士、聋哑人士等难以与其他人沟通，影响日常生活的方方面面。

发明内容

本申请实施例提供了一种手语翻译方法，以便捷的进行手语翻译。

相应的，本申请实施例还提供了一种手语客服方法、一种手语通信方法、一种手语教学方法、一种电子设备和一种机器可读介质，用以保证上述方法的实现及应用。

为了解决上述问题，本申请实施例公开了一种翻译方法，所述方法包括：获取手语视频数据；依据手语识别模型对所述手语视频数据进行手语识别，依据手语识别结果确定对应的手语翻译信息，其中，所述手语识别模型用于提取所述手语视频数据的手语结构化特征，并依据所述手语结构化特征进行手语识别；输出所述手语翻译信息。

可选的，所述依据手语识别结果确定对应的手语翻译信息，包括：将手语识别结果中的手语识别文本作为手语翻译信息；和/或采用手语识别结果中的手语识别文本进行语音合成，将合成的手语翻译语音作为手语翻译信息。

可选的，还包括：提供手语翻译页面；在所述手语翻译页面中播放所述手语视频数据；所述输出所述手语翻译信息，包括：在所述手语翻译页面中显示手语识别文本，和/或，基于所述手语翻译页面播放所述手语翻译音频。

可选的，还包括：响应于对所述手语翻译页面中语言选择控件的触发，显示语言可选项；响应于对语言可选项的触发，确定选择的目标语言，所述目标语言为手语视频数据翻译的语言。

可选的，响应于输出调整指令，调整所述手语翻译信息的输出方式，所述输出方式包括：语音输出方式、文本输出方式和\或视频输出方式。

可选的，所述手语翻译页面包括手语输入区域和手语输出区域，在所述手语翻译页面中播放所述手语视频数据，包括：在所述手语翻译页面的手语输入区域播放所述手语视频数据；所述方法还包括：在所述手语翻译页面的手语输出区域播放合成的手语视频数据，所述合成的手语视频数据为采用虚拟形象执行手语的视频数据，虚拟形象执行的手语依据输入信息确定。

可选的，所述依据手语识别模型对所述手语视频数据进行手语识别，包括：通过手语视觉结构化模型对所述手语视频数据进行特征提取，确定手语结构化特征；通过手语特征识别模型对所述手语结构化特征进行识别处理，得到手语识别文本。

可选的，基于设定条件确定场景信息，并依据所述场景信息确定场景参数，以通过所述场景参数辅助手语翻译。

本申请实施例还公开了一种手语翻译方法，所述方法包括：提供手语翻译页面；通过图像采集组件采集第一手语视频数据，并在所述手语翻译页面的手语输入区域显示所述第一手语视频数据；获取所述第一手语视频数据对应的手语翻译信息，所述手语翻译信息为手语视频数据通过手语识别模型提取手语结构化特征，并执行手语识别处理的得到的；通过所述手语翻译页面输出所述手语翻译信息；通过音频输入组件采集语音数据；获取采集的语音数据对应合成的第二手语视频数据，所述第二手语视频数据为虚拟形象依据所述语音数据的语义执行手语的视频数据；在所述手语翻译页面的手语输出区域显示所述第二手语视频数据。

本申请实施例公开了一种手语客服方法，所述方法包括：提供手语客服页面；通过图像采集组件采集第一手语视频数据，并在所述手语客服页面的手语输入区域显示所述第一手语视频数据；确定所述第一手语视频数据对应的手语翻译信息，以在客服页面中输出所述手语翻译信息，所述手语翻译信息为第一手语视频数据通过手语识别模型提取手语结构化特征，并执行手语识别处理的得到的；接收依据客服的服务答复信息合成的第二手语视频数据，所述第二手语视频数据为虚拟形象依据所述服务答复信息的语义执行手语的视频数据；在所述手语客服页面的手语输出区域显示所述第二手语视频数据。

本申请实施例公开了一种手语通信方法，所述方法包括：提供视频通信页面；通过图像采集组件采集第一视频数据，并在所述视频通话页面的本端显示区域显示所述第一视频数据，所述第一视频数据包括第一手语视频数据；在所述视频通话页面的本端显示区域显示所述第一手语视频数据的手语翻译信息，所述手语翻译信息为第一手语视频数据通过手语识别模型提取手语结构化特征，并执行手语识别处理的得到的；接收根据对端的通信信息合成的第二手语视频数据，所述第二手语视频数据为虚拟形象依据所述通信信息的语义执行手语的视频数据，所述通信信息包括文本信息、语音信息和视频信息中的至少一种；在所述视频通话页面的对端显示区域显示所述第二手语视频数据。

本申请实施例公开了一种手语教学方法，所述方法包括：提供手语教学页面；在所述手语教学页面显示目标教学信息；通过图像采集组件采集第一手语视频数据，并在所述手语教学页面的手语输入区域显示所述第一手语视频数据，所述第一手语视频数据为手语用户依据所述目标教学信息执行手语的视频数据；上传所述第一手语视频数据；接收所述第一手语视频数据对应的手语翻译信息，以及合成的第二手语视频数据，所述手语翻译信息为第一手语视频数据通过手语识别模型提取手语结构化特征，并执行手语识别处理的得到的，所述第二手语视频数据为所述虚拟形象执行所述目标教学信息的手语教学视频数据；在所述手语教学页面的手语输出区域显示所述第二手语视频数据，以便手语用户学习手语。

本申请实施例公开了一种电子设备，包括：处理器；和存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如本申请实施例中任一项所述的方法。

本申请实施例公开了一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如本申请实施例中任一项所述的方法。

与现有技术相比，本申请实施例包括以下优点：

在本申请实施例中，获取手语视频数据，依据手语识别模型对所述手语视频数据进行手语识别，确定对应的手语翻译信息，其中，所述手语识别模型用于提取所述手语视频数据的手语结构化特征，并依据所述手语结构化特征进行手语识别，基于显式地手语结构化特征增强手语识别网络的学习能力，提升最终的识别精度，输出所述手语翻译信息，从而便捷的进行手语翻译。

附图说明

图1是本申请实施例的一种手语翻译场景的示意图；

图2是本申请的一种手语识别模型的训练方法实施例的步骤流程图；

图3是本申请实施例的一种空间结构化示例的示意图；

图4是本申请的一种手语翻译方法实施例的步骤流程图；

图5A是本申请实施例的一种手语翻译页面示例的示意图；

图5B是本申请的一种手语客服方法实施例的步骤流程图；

图5C是本申请实施例的另一种手语翻译场景的示意图；

图6A、图6B是本申请实施例的一种指示元素的示例的示意图；

图7是本申请的另一种手语翻译方法实施例的步骤流程图；

图8是本申请的另一种手语翻译方法实施例的步骤流程图；

图9是本申请的一种双向手语翻译方法实施例的步骤流程图；

图10是本申请的一种无障碍通信方法实施例的交互示意图；

图11是本申请的一种手语教学方法实施例的步骤流程图；

图12是本申请一实施例提供的装置的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

本申请实施例中可应用于各种需要手语翻译的场景中。例如在听障人士、聋哑人士等目标用户进行购物、就医、法律服务等面对面交流的场景中，本申请实施例能够提供手语翻译服务，可以提供翻译页面，能够采集需要翻译的手语视频数据，然后进行翻译并输出翻译信息。本申请实施例不需要第三方用户作为翻译，而是自动识别听障人士、聋哑人士等目标用户的手语，输出翻译的语音、文本等数据。用户可使用手机、平板以及电脑等各种电子设备执行本申请实施例的翻译方法。

本申请实施例的电子设备可具有图像采集组件、显示组件、音频输入/输出组件等，如摄像头、显示器、麦克风、音响等组件。从而能够进行图像、视频、音频数据的采集、播放。本申请实施例中，可通过摄像头等图像采集设备采集手语视频数据，然后通过手语识别模型对手语视频数据进行手语识别，实现针对手语的自动翻译，得到对应的手语翻译信息。然后采用终端设备输出手语翻译信息，便于非手语用户明白手语用户所表达的意思。如图1所示为一种手语翻译场景的示例中，手语用户使用手机进行手语翻译，手机的摄像头等图像采集设备采集手语视频数据，并且可将实时采集的手语视频数据显示在手机上，方便手语用户查看自己的手语状态。然后通过手语识别模型对手语视频数据进行手语识别，实现针对手语的自动翻译，得到对应的手语翻译信息，可通过文本的形式将翻译文本显示在手机的显示屏上，也可通过语音的形式采用手机播放翻译的语音，使得非手语用户能够了解该手语的意思。

本申请实施例中手语识别模型包括手语视觉结构化模型和手语特征识别模型，所述手语视觉结构化模型用于从手语视频数据中提取手语结构化特征，所述手语特征识别模型用于基于手语结构化特征识别语义，翻译手语得到手语识别文本。因此，手语识别模型可由手语视觉结构化模型和手语特征识别模型两个模型共同构成，手语视觉结构化模型和手语特征识别模型也可作为手语识别模型的子模型。其中，各模型可预先进行模型训练，后续基于训练好的手语视觉结构化模型和手语特征识别模型可以对手语视频数据中的手语自动进行翻译，方便非手语用户与其他用户交流。本申请实施例中，手语识别模型可采用神经网络、机器学习等模型，如通过卷积神经网络训练手语识别模型。例如，手语视觉结构化模型可基于视觉结构化信息进行特征提取和模型训练。其中，结构化可理解为对一个事务或物体进行描述或表达的一种信息，例如视觉结构化信息可以理解为描述视觉的结构化特征的信息，如物体的形状、轮廓、颜色、纹理等多层次的结构化特征，具体的结构化特征可依据应用场景确定。本申请实施例中，可基于手语视频数据提取视觉结构化要素，所述视觉结构化要素指的是与手语相关的细粒度的结构化视觉线索信息，如感兴趣区域(Region OfInterest，ROI)、人体姿态关键点(pose)、手部区域模糊分类信息等。然后可采用多任务的卷积神经网络同时进行物体检测、姿态估计、模糊检测等任务。

一种手语视觉结构化模型的训练过程如图2所示：

步骤202，获取手语视频数据。

本申请实施例中，在模型训练阶段可预先收集手语视频数据，如各类带有手语翻译的视频数据，还可为手机等电子设备采集的手语视频数据等。将手语视频数据作为样本数据。

步骤204，对所述手语视频数据进行特征提取，确定对应的视觉结构化要素信息。

可以基于手语视频数据进行特征提取，所提取的信息为视觉结构化要素信息，其中，视觉结构化要素信息可包括多种类型，如兴趣类型、姿态类型、模糊类型等，因此可按照类型确定提取方式，基于所述提取方式从所述手语视频数据中提取相应类型的视觉结构化要素信息。例如可以训练多任务的卷积神经网络，将每种类型的要素提取作为一种任务，从而采用多任务的卷积神经网络同时进行物体检测、姿态估计、模糊检测等任务，提取相应的视觉结构化要素信息。

可采用多任务的卷积神经网络对所述手语视频数据执行物体检测任务，确定对应感兴趣区域的要素信息；采用多任务的卷积神经网络对所述手语视频数据执行姿态估计任务，确定对应的人体姿态关键点的要素信息；采用多任务的卷积神经网络对所述手语视频数据执行模糊检测任务，确定对应手部区域模糊分类的要素信息。以上是一种多任务的卷积神经网络的方式，实际上还可以针对每种任务分别进行特征提取，可以训练相应的卷积神经网络或其他神经网络模型，也可采用其他的方式，如对视频中的每个图像进行分析，从而提取相应的特征。本申请实施例对此不做限制。

其中，针对物体检测任务，可以先定位在手语图像中感兴趣区域，对于手语而言，其主要通过手语动作和面部表情来表达，因此可将面部区域或头部区域、身体区域、手部区域等作为感兴趣区域，然后从感兴趣区域中提取相应的要素信息。针对姿态估计任务，主要是对用户的手语姿态进行检测，包括身体姿态、肢体姿态、手部姿态等，对这些姿态进行检测确定关键点的信息，得到人体姿态关键点的要素信息。例如关键点可包括肩膀、手肘等关键点，以及脸部的关键点，如嘴的关键点等。针对模糊检测任务，对于模糊检测的区域是手语相关的区域，主要可以为手部区域，基于该模糊检测任务可以对手部区域进行模糊检测，可检测手部的运动信息、形状信息等，确定相应的分类信息，作为手部区域模糊分类的要素信息。

步骤206，依据所述视觉结构化要素信息进行手语视觉结构化模型的训练，得到对应的手语视觉结构化模型。

对于手语视觉结构化模型包括空间结构化模型和时序结构化模型，其中，手语视觉结构化模型可由空间结构化模型和时序结构化模型两个模型共同构成，手语视觉结构化模型也可为一个模型，则空间结构化模型和时序结构化模型分别是该模型中的子模型，本申请实施例对此不做限制。因此手语视觉结构化建模包括空间结构化建模和时序结构化建模。其中，时序结构化模型可通过建立关联帧之间的时序信息进行时序建模。对于空间结构化模型可对节点、连接、部件三个结构化要素进行结构化建模。其中，所述依据所述视觉结构化要素信息进行手语视觉结构化模型的训练，得到对应的手语视觉结构化模型，包括：依据所述视觉结构化要素信息确定时序信息和空间信息；依据所述时序信息对时序结构化模型进行训练，以及依据所述空间信息对空间结构化模型进行训练；依据所述时序结构化模型和空间结构化模型确定手语视觉结构化模型。

可对所述视觉结构化要素信息进行分析，确定与时序相关的要素信息，得到时序信息。例如基于人体姿态关键点的要素信息，可基于动作的前后关联确定出关联帧之间的时序信息等。又如基于感兴趣区域的要素信息可以得到相关区域的变化信息，确定关联帧之间的时序信息等。依据所述视觉结构化要素信息还可确定空间信息，其中，可对所述视觉结构化要素信息进行分析，确定与空间结构相关的要素，包括各种区域内的关键点(或称兴趣点)等，得到相应的空间信息。然后可以依据所述时序信息对时序结构化模型进行训练，以及依据所述空间信息对空间结构化模型进行训练。对于模型训练，通常包括前向传播和反向传播两个过程，即将相应的要素信息输入到模型中进行处理，得到对应的视觉结构化特征，然后基于该视觉结构化特征确定反向参数，如将视觉结构化特征和预先标注的对比特征进行分析，确定调整的反向参数，又如基于视觉结构化确定反馈函数，将该反馈函数作为反向参数，基于反向参数来调整模型。

其中，依据所述时序信息对时序结构化模型进行训练，包括：将时序信息输入到时序结构化模型进行处理，得到时序结构化特征；采用所述时序结构化特征确定反向参数，依据所述反向参数对时序结构化模型的参数进行调整，得到训练完成的时序结构化模型。依据所述空间信息对空间结构化模型进行训练，包括：将空间信息输入到空间结构化模型进行处理，得到空间结构化特征；采用所述空间结构化特征确定反向参数，依据所述反向参数对空间结构化模型的参数进行调整，得到训练完成的空间结构化模型。

本申请实施例中，空间信息包括空间的节点、连接和部件三种空间结构化要素，通过空间结构化模型可对上述三种空间结构化要素进行分析。其中，节点(node)，如图3所示，节点包括运动节点和位置节点，所述位置节点用于描述节点在2D空间中的图像坐标Node(x,y)。所述运动节点用于表达节点在2D空间中的图像坐标以及距离参考节点的偏移量，所述参考节点指的是运动节点对应的参考节点，如相应运动节点在静止位置的节点为参考节点，如肘部的参考节点，手腕的参考节点等。连接(Joint)描述了运动节点之间的2D空间矢量关系，如运动节点间的角度、距离等信息。部件(Part)包含手语相关的部件，如头部(R0)、左手(R1)、右手(R2)三个部件。这些部件中包含了丰富的信息，如头部包含了各种面部器官及表情表达，左右手可以表达不同的手势和朝向等信息。针对空间结构化模型其可以对图像进行2D空间的量化，定义节点在2D空间的位置等。结合各节点在所有节点中的权重等信息，学习各节点在空间中的关系，如通过节点，节点之间的连接以及所在的部件来描述空间结构化特征。如图3中，位置节点包括：Node0、Node1、Node2、Node3、Node4、Node5、Node6、Node11、Node12、Node13、Node14、Node15，运动节点包括：Node7、Node8、Node9、Node10。

从而能够基于上述结构化模型获取手语视频数据中的显性特征，更加准确的描述手语。其中，手语视觉结构化模型可基于空间结构化模型学习2D图像空间中关键点、连接、部件之间的矢量关系和空间特征表达，还可基于时序结构化模型进行时序空间特征建模，得到稳定的手语时序特征。

步骤208，依据所述手语结构化特征训练手语特征识别模型。

在得到以上空间结构化模型和时序结构化模型的手语视觉结构化模型后，可以基于手语视觉结构化模型输出的手语结构化特征。之后可基于手语结构化特征进行手语词汇和语句的学习，得到手语语法结构的词汇序列。并且手语的词汇序列与正常的汉语语序具有较大区别，因此需要通过词汇语序调整实现正常语序的生成，得到最终的手语识别文本。因此可基于手语结构化特征训练手语特征识别模型，其训练过程与上述类似，因此不再赘述。

可基于所述手语结构化模型和手语特征识别模型，确定手语识别模型。本申请实施例中，上述手语识别模型可位于终端设备侧，也可位于服务端侧，或者将手语结构化模型设置在终端设备侧，将手语特征识别模型设置在服务端，从而在终端设备侧提取手语结构化特征，而后上传该手语结构化特征到服务端，在服务端进行手语文本的识别。具体可依据实际需求确定，本申请实施例对此不做限制。

本申请实施例采用针对视觉图像的结构化要素提取、结构化建模及学习方法，显式地增强手语识别网络的学习能力，提升最终的识别精度。并且细节的结构化要素可以提供定制化的技术服务，如自动化断句、特定动作类目分析等，提高准确性。

参照图4，示出了本申请的一种手语翻译方法实施例的步骤流程图。

步骤402，获取手语视频数据。

终端设备可通过摄像头等图像采集组件采集手语视频数据，服务端可接收终端设备采集的手语视频数据。该手语视频数据至少包括面部影像和手语影像。其中，该面部影像和手语影像用于手语识别。其中，对于手语视频数据的识别可以句子为基准进行语义翻译，逐句对手语进行识别。

其中，服务端可提供手语翻译页面，该手语翻译页面用于执行手语翻译。因此在一些实施例中，可在该手语翻译页面中显示手语视频数据。如在摄像头采集手语视频数据的同时，在手语翻译页面中显示所采集的手语视频数据。本申请实施例中，还可在手语翻译页面中显示提示信息，如针对拍摄位置的提示信息以便提醒手语用户，在指定的区域进行手语视频的拍摄，避免拍摄不完整，导致翻译不准确。其中，针对拍摄位置的提示信息包括以下至少一种文本提示信息、线条提示信息等。

为了更准确的识别手语用户的手语，可以在手语翻译页面设置手语识别区，该手语识别区能够使得手语用户的手语位于图像采集组件的采集区域内，从而减少识别失败率。相应可设置手语识别区的提示信息，以进行输入位置区域的提示。该手语识别区的提示信息可为多种形式的信息，如为文本提示信息，通过文本提示手语用户摆正姿势、位于采集区域中间等。也可为线条提示信息，如线条提示信息呈现为人性区域，以提示出手语用户身体所在的区域，从而保证手语的采集，或者各种信息相结合，通过文本提示用户身体要位于虚线框中等。

步骤404，依据手语识别模型对所述手语视频数据进行手语识别，依据手语识别结果确定对应的手语翻译信息，其中，所述手语识别模型用于提取所述手语视频数据的手语结构化特征，并依据所述手语结构化特征进行手语识别。

其中，所述手语结构化模型可基于手语视频数据中的手语结构化要素，识别手语结构化特征，该手语结构化特征包括手语时序特征和手语空间特征。该手语结构化要素可由手语结构化模型直接从手语视频数据中提取，也可由其他模型提取后输入到手语结构化模型进行特征识别。手语结构化模型针对手语视频数据的处理与上述训练过程类似，因此不再赘述。之后可将手语结构化特征输入到手语特征识别模型中，通过手语特征识别模型识别手语结构化特征所表达语义的词汇以及序列，然后再按照所翻译的自然语言的语序进行调整，得到手语识别文本作为手语识别结果。可以将该手语识别文本确定为手语翻译信息。在另外一些实施例中，也可采用手语识别文本，基于文本到语音(TextToSpeech，TTS)的语音技术，合成语音数据，得到手语翻译语音，添加到手语翻译信息中。其中，该自然语言可以理解为自然地随文化演化的语言，即通过发音方式输出的语言。如汉语、英语、法语、日语等，也可为一种语言下的方言，如粤语、闽南语、上海话等方言。本申请实施例中，针对手语的翻译还可结合表情数据、情绪数据等多维的手语特征数据实现。

步骤406，输出所述手语翻译信息。

对于服务端侧，可将手语翻译信息输出给终端设备，以便在终端设备侧展示。在终端设备侧可在手语翻译页面中显示手语识别文本，也可通过终端设备播放手语翻译语音，具体可依据需求确定。

从而获取手语视频数据，依据手语识别模型对所述手语视频数据进行手语识别，确定对应的手语翻译信息，其中，所述手语识别模型用于提取所述手语视频数据的手语结构化特征，并依据所述手语结构化特征进行手语识别，显式地增强手语识别网络的学习能力，提升最终的识别精度，输出所述手语翻译信息，从而便捷的进行手语翻译。

使用手语的用户一般分为几种情况，如具有听力障碍的听障用户，不能说话的语障用户，或者这两种情况均存在的用户，可称为聋哑用户。本申请实施例中将执行手语的用户称为手语用户。本申请实施例的手语翻译页面可基于具体的情况进行设置，如针对语障用户，可仅提供手语翻译，而对于听障用户、聋哑用户等，还可在手语翻译页面中提供针对自然语言的手语翻译，即将自然语言翻译手语，驱动虚拟形象进行手语并合成视频数据，从而便于手语用户和其他用户的双向交流。具体可以依据用户的需求设置，本申请实施例对此不做限制。其中针对双向翻译的场景，该手语翻译页面包括手语输入区域和手语输出区域，如图5A所示的一种手语翻译页面的示例。所述手语输入区域用于针对采集的手语视频数据进行展示，所采集的手语视频数据中执行手语的用户为真实用户，而手语输出区域用于展示合成的手语视频数据。在所述手语翻译页面的手语输入区域播放所述手语视频数据；在所述手语翻译页面的手语输出区域播放合成的手语视频数据，所述合成的手语视频数据为采用虚拟形象执行手语的视频数据，虚拟形象执行的手语依据输入信息确定。对于非手语用户，可通过语音或文本等方式进行信息输入，相应的输入信息可进行语义分析，然后基于语义翻译为手语，驱动虚拟形象执行手语，包括驱动虚拟形象的手部动作和/或面部表情，并合成对应的手语视频数据，之后可在手语输出区域中展示，即通过驱动虚拟形象执行手语的方式，使得手语用户可以观看到手语，理解其他用户表达的意思。从而通过上述手语翻译为自然语音，以及自然语音翻译为手语的示例，本申请实施例的手语翻译页面可提供手语的自动翻译，对于手语视频可通过语音、文本等输出翻译的自然语言，对于自然语言所翻译的手语可驱动虚拟形象执行并显示为相应的手语视频，使得手语用户可以观看到该手语视频数据。本申请实施例中合成的手语视频数据为通过虚拟形象(也称数字人)合成的手语视频数据。该虚拟形象指的是通过信息技术基于人体的形态、功能等参数仿真人体所得到的用户，例如基于3D技术结合人体的形态等参数进行人物建模，通过仿真技术得到的虚拟形象，也可称为数字人、虚拟角色等。虚拟形象可基于人体的形态、肢体、姿势等各种参数驱动执行动作，从而模拟手语动作，实现通过虚拟形象执行手语，生成相应的视频数据来进行手语交互。

本申请实施例中，针对手语的无障碍交互可应用于各种场景中。例如在与手语用户面对面交流的场景中，如应用于就医场景中手语用户挂号、付款、取药、问诊等各个交流过程；又如应用于手语用户去商场、超市、市场等购物场景中面对面的购物交流中；又如应用于为手语用户提供法律服务场景等。该无障碍通信还可应用于手语用户和远端用户的通信过程，便于手语用户远程进行通信。例如，在购物场景中，商家可通过设备提供手语翻译服务，在手语用户进入到购物环境如卖场等商家中，可以触发引导页面中翻译控件进入到手语翻译页面中。又如在就医挂号场景中，医院可提供设备在挂号窗口中，手语用户可自己触发翻译指令进入到手语翻译页面中。

在一些场景中，手语用户所使用的手语也可能不同，如不同国家的手语存在差异，又如自然手语和标准手语也存在一定的差异等，因此本申请实施例的无障碍交互也可提供使用不同手语的手语用户之间的手语翻译服务，从而便于手语用户的交流。对于不同手语用户的翻译，可通过一个设备的前后两个摄像头分别采集手语视频数据，也可为不同设备分别采集手语视频数据后，基于服务器进行传输处理，实现交互。

在上述实施例的基础上，本申请实施例还提供了一种手语用户和非手语用户交互的客服场景，如图5B、图5C所示。

步骤502，提供手语客服页面。

客服页面可给用户提供手语翻译入口，从而基于该手语翻译入口可进入手语客服页面。

步骤504，通过图像采集组件采集第一手语视频数据，并在所述手语客服页面的手语输入区域显示所述第一手语视频数据。

在手语用户(第一设备)侧采集手语视频数据，在非手语用户(第二设备)侧采集文本数据，基于文本数据合成合成的手语视频数据，发送给第一设备，使得虚拟形象可以观看该合成的手语视频数据。相应的，针对手语用户的采集的手语视频数据翻译得到的手语识别文本反馈到客服的第二设备中。其中，设备提供手语翻译页面，所述手语翻译页面包括：手语输入区域和手语输出区域。以第一设备为手语用户的设备，第二设备为非手语用户的设备为例，该翻译页面为客服页面，如购物应用程序的客服页面、就医咨询页面的服务页面等。第一设备通过图像采集组件采集第一手语视频数据。第一设备在手语输入区域显示采集的第一手语视频数据。第一设备上传所述采集的第一手语视频数据到服务端。

步骤506，确定所述第一手语视频数据对应的手语翻译信息，以在客服页面中输出所述手语翻译信息，所述手语翻译信息为第一手语视频数据通过手语识别模型提取手语结构化特征，并执行手语识别处理的得到的。

服务端对所述采集的手语视频数据进行手语识别，得到对应的手语翻译信息，如手语识别文本，可以发送该手语识别文本到第二设备，使得在客服端可以在服务页面查看文本消息。其中，依据手语识别模型对所述手语视频数据进行手语识别，如通过手语视觉结构化模型对所述手语视频数据进行特征提取，确定手语结构化特征；通过手语特征识别模型对所述手语结构化特征进行识别处理，得到手语识别文本。

步骤508，接收依据客服的服务答复信息合成的第二手语视频数据，所述第二手语视频数据为虚拟形象依据所述服务答复信息的语义执行手语的视频数据。

步骤510，在所述手语客服页面的手语输出区域显示所述第二手语视频数据。

第二设备接收服务答复信息，如服务答复的文本数据，上传所述文本数据到服务端。服务端依据文本数据进行语义识别并合成第二手语视频数据。依据所述文本数据确定手语参数，依据所述手语参数，生成包含虚拟形象的第二手语视频数据。服务端发送第二手语视频数据给第一设备，使得手语用户可以观看到相应的手语服务，能够为手语用户提供所需的服务。

本申请实施例中，该手语翻译页面可提供语言选择控件，该语言选择控件用于选择目标语言。目标语言可包括各种手语和各种自然语言。其中，不用国家的手语也存在一定的差异，因此可提供手语选择控件，该手语选择控件用于选择不同种类的手语，如中国手语、英国手语等，不同种类的手语可以理解为不同国家的手语，也可包括标准手语、自然手语，该自然手语指的是自然所形成的手语。语言选择控件也可包括自然语言选择控件，用于选择所翻译的自然语言，如汉语、英语、法语，还可包括方言等，从而方便各类用户使用。响应于对所述手语翻译页面中语言选择控件的触发，显示语言可选项；响应于对语言可选项的触发，确定选择的目标语言。

本申请实施例中，还可基于需求调整所需的输入、输出方式，例如在页面上设置输入调整控件、输出调整控件，可基于对相应控件的调整，切换不同的输入、输出方式。另外还可通过手势触发输入、输出方式的切换。其中，可依据第一手势操作，调整输入方式，所述输入方式包括：语音输入方式、文本输入方式和\或视频输入方式；依据第二手势操作，调整输出方式，所述输出方式包括：语音输出方式、文本输出方式和\或视频输出方式。本实施例的手势可为默认手势，也可为自定义手势，还可将指示切换的手语作为切换的第一手势操作、第二手势操作，从而在检测到手势操作后，可以基于该手势操作调整输入、输出方式，如从手语输入切换为语音输入，又如从语音输出调整为文本数据等，可基于需求确定。响应于输出调整指令，调整所述手语翻译信息的输出方式，所述输出方式包括：语音输出方式、文本输出方式和\或视频输出方式。输出调整指令可基于第二手势操作生成，也可基于页面所提供的输出方式调整控件的触发生成。

本申请实施例可应用于各种服务场景中，因此手语翻译页面还可提供各种服务信息，所述服务信息的信息类型包括：服务文本数据、服务语音数据和服务手语视频数据中的至少一种；所述服务信息的内容类型包括以下至少一种：提示信息、场景常用语。即服务信息可通过手语、语音、文本等形式输出，而服务信息所对应的内容可为各种提示信息、场景的常用语等。

其中，服务信息包括提示信息，提示信息可为各种事件的提示信息，如等待提示信息、故障提示信息、操作提示信息等。如等待提示信息可通过手语视频、文本等方式提示手语用户，请等待，正在翻译或正在输入数据，也可通过语音、文本等方式提示其他用户，请等待，正在翻译或正在输入数据等。对于故障提示信息，也可通过语音、文本、手语视频等各种形式，提示相应的用户，现在出现故障，如网络出现问题、无法翻译、翻译失败等内容。操作提示信息可通过语音、文本、手语视频等各种形式，提示相应的用户可以执行的操作，如启动翻译，结束翻译，切换语言等。还可包括关于输入的提示，例如手语用户脱离手语识别区，可以进行提示，又如其他用户的声音比较小，也可进行提示。

所述场景常用语可与翻译的场景相关，例如在购物场景中，可为购物相关的常用语如欢迎语、价格回复、商品介绍、购物问询等常用语；又如在就医场景中，对于症状、保险等的常用语；又如在法律服务场景中，对于用户基本信息的询问等场景。总之可基于实际所应用的场景，预先确定出该场景的常用语，并得到对应的文本、语音、手语视频等数据。

上述服务信息为在场景服务中信息，如使用频率比较高的信息，又如必要的提示信息等。因此这些服务信息可预先存储在设备本地，并且每个服务信息可对应服务条件，如提示条件、场景条件等，结合具体的使用场景确定，在检测到满足服务条件时，输出相应的服务信息。

在上述实施例的基础上，本申请实施例还可以确定场景信息，基于场景信息确定场景参数，以通过所述场景参数辅助手语翻译。并且可基于场景信息、场景参数确定所需的场景常用语等服务信息。例如可基于场景信息可确定场景参数，如场景的名称、标签、属性等参数，然后可基于该参数来辅助手语翻译，如调用相应的手语数据库等。该确定场景信息，包括以下至少一种信息：对所述采集的手语视频数据的背景进行分析，确定对应的场景信息；针对所采集的采集的手语视频数据，可通过视觉处理分析背景，如室外或室内，商场或旅游景点等，从而基于分析的背景确定相应的场景信息。通过音频输入组件采集环境音数据，依据所述环境音数据确定对应的场景信息；针对所采集的语音数据、视频数据等也可对环境音进行分析，确定用户当前所处的环境，得到相应的场景信息。对所述采集的语音数据进行分析，确定对应的场景信息；对于采集的语音数据的分析可包括内容分析、环境音分析等，从而确定出场景信息。获取位置信息，依据所述位置信息确定场景信息；还可从终端设备获取位置信息，基于该位置信息确定对应的场景信息，如基于位置信息确定当前位于学校、医院、商场等位置，确定相应的场景信息。确定所述翻译页面之前的目标页面，依据所述目标页面确定场景信息；翻页页面可从其他页面中进入，因此可将进入翻译页面之前的页面作为目标页面，然后基于目标页面分析场景信息，如目标页面为支付页面、购物页面、购物应用的客服页面等，可确定相应的场景信息。确定已运行的应用程序，依据所述已运行的应用程序确定场景信息；还可检测设备中已运行的应用程序，基于该应用程序的类型、功能等确定场景信息。如购物应用、社交应用、即时通讯应用等，其中已运行的应用程序包括手语翻译页面所在的应用程序，以及在后台或前台运行的其他应用程序，具体可基于需求确定。获取时间信息，依据所述时间信息确定场景信息。还可基于时间信息来确定场景信息，如白天、夜晚，工作日、休息日、节假日等，具体依据需求确定。

本申请实施例中，场景参数可综合上述各种维度所确定的场景信息得到，从而能够基于场景参数辅助手语翻译、手语合成等过程。

本申请实施例中，手语翻译页面还包括退出控件，依据对手语翻译页面中退出控件的触发，接收退出指令；依据所述退出指令，关闭所述手语翻译页面。如在完成购物、就医挂号等，可触发结束控件，关闭手语翻译页面，回到引导页面。从而在各种场景中为用户提供手语服务，辅助与手语用户交互。

本申请实施例中，在每个区域还设置有指示元素，该指示元素用于指示当前区域的输入、输出状态。可采用多种形式实现，例如指示元素为界面图标，通过不同的颜色指示输入、输出状态，如输入状态为红色、输出状态为绿色，无输入输出的空闲状态为灰色。又如指示元素为动态元素，可通过动态的指示效果来指示不同的输入、输出状态。如一种动态元素的示例为指示灯。该指示灯可通过不同的光圈来指示不同的输入、输出状态。如在输入、输出时，光圈动态的扩大、缩小，指示当前正在输入或输出。并且还可结合不同的颜色、文字等来进行提示。在手语输入区域和手语输出区域可分别设置指示原色，从而指示本区域的输入、输出状态，以及指示其他区域的输入、输出状态。也可在翻译页面中显示一个指示原色，通过不同的颜色、动态效果、文字等来提示当前输入、输出的用户。因此，可在所述翻译页面中显示指示元素，所述指示元素用于指示输入、输出状态；所述指示元素包括以下至少一种：文字指示元素、动态指示元素、颜色指示元素。如图6A的示例中，其分步骤展示出了指示元素对应呼吸灯样式的动态效果，在具有输入或输出时，指示元素可通过光圈的逐步扩大和缩小来展示动态效果，指示输入或输出正在执行。如在对方输入时，显示为“A”且颜色由深变浅的调整，在自己输入时，显示为“B”且颜色由浅变深的调整。如图6B所示的一种示例中，提供了一种呼吸灯样式的指示元素，在空闲状态下为灰色，在存在输入或输出时亮起，显示为呼吸灯样式。并且在双向翻译的场景中，还可以通过在指示元素上显示文字来表示输入或输出的用户，如“A”代表用户A，“B”代表用户B，“C”代表虚拟形象，能够直观的指示出执行示输入或输出的用户。例如，在检测到用户A执行输入或输出时，可通过指示元素显示“A”，并通过动态变化或颜色变化指示用户A正在输入或输出。又如在检测到对方执行输入或输出时，可通过指示元素显示“B”或“C”，并通过动态变化或颜色变化指示对方用户B正在输入或虚拟形象C在输出。又如在虚拟形象输出手语时，第二界面上的指示元素可显示“九”等虚拟形象的简称、昵称、代号等信息，并且通过动态变化或颜色变化指示虚拟形象正在输出手语。

本申请实施例中，手语翻页页面还包括指示标签，该指示标签可用于指示输入状态、对话时间、服务信息等。一个示例中，所述指示标签可位于手语输入区域和手语输出区域的交接位置上，可用于指示各种所需的信息。例如将服务信息显示在指示标签上，从而可以指示各种提示信息、场景常用语以及场景所对应的推荐信息等。还可与指示元素相结合来提示输入状态，以及可以显示当前翻译的持续时间等各类型的信息。该指示标签也可通过不同的颜色、图标、文字等来显示不同的信息，还可在不同信息之间切换时，通过相应的切换样式进行提示，如翻转切换、缩放切换、百叶切换等各种样式，从而能够提示信息的变化。在所述手语翻译页面中显示指示标签；在不同的指示标签之间通过设定样式进行切换。

在上述实施例的基础上，本申请实施例还提供了一种手语翻译方法，应用于终端设备侧，能够基于手语翻译页面进行手语翻译。

参照图7，示出了本申请的另一种手语翻译方法实施例的步骤流程图。

步骤702，提供手语翻译页面。

可提供翻译引导页面，该翻译引导页面可作为手语翻译服务的首页，引导用户进行翻译页面。从而翻译引导页面提供翻译控件。基于对对翻译引导页面中翻译控件的触发，可接收翻译指令。在另外一些场景中，也可在通过专门的应用程序提供翻译功能，如通过应用程序的图标、应用程序页面的功能按钮等提供翻译入口，从而通过触发翻译入口可生成翻译指令。例如可在通讯应用、支付应用、社交应用、服务应用等各种类型的应用中提供翻译引导页面或翻译入口，便于手语用户在各种场景中使用手语。

步骤704，通过图像采集组件采集手语视频数据，并在所述手语翻译页面中显示所述手语视频数据。从而手语用户可通过手语翻译页面观看到自己所作的手语，确定手语是否被完整拍摄到。

步骤706，获取所述手语视频数据对应的手语翻译信息，所述手语翻译信息为手语视频数据通过手语识别模型提取手语结构化特征，并执行手语识别处理的得到的。

如果终端设备侧具有手语识别模型，则可将手语视频数据输入到手语识别模型中，采用手语识别模型对所述手语视频数据进行手语识别，确定对应的手语翻译信息。若将手语结构化模型设置在终端设备侧，将手语特征识别模型设置在服务端，从而在终端设备侧提取手语结构化特征，而后上传该手语结构化特征到服务端，在服务端进行手语文本的识别。其中，所述手语结构化模型可基于手语视频数据中的手语结构化要素，识别手语结构化特征，该手语结构化特征包括手语时序特征和手语空间特征。该手语结构化要素可由手语结构化模型直接从手语视频数据中提取，也可由其他模型提取后输入到手语结构化模型进行特征识别。手语结构化模型针对手语视频数据的处理与上述训练过程类似，因此不再赘述。之后可将手语结构化特征输入到手语特征识别模型中，通过手语特征识别模型识别手语结构化特征所表达语义的词汇以及序列，然后再按照所翻译的自然语言的语序进行调整，得到手语识别文本。可以将该手语识别文本确定为手语翻译信息。在另外一些实施例中，也可采用手语识别文本合成语音数据，得到手语翻译语音，添加到手语翻译信息中。

步骤708，通过所述手语翻译页面输出所述手语翻译信息。在终端设备侧可在手语翻译页面中显示手语识别文本，也可通过终端设备播放手语翻译语音，具体可依据需求确定。

在上述实施例的基础上，本申请实施例还提供了一种手语翻译方法，应用于服务端，能够基于手语翻译页面进行手语翻译。

参照图8，示出了本申请的另一种手语翻译方法实施例的步骤流程图。

步骤802，接收手语视频数据。服务端可接收终端设备采集的手语视频数据。该手语视频数据至少包括面部影像和手语影像。其中，该面部影像和手语影像用于手语识别。其中，对于手语视频数据的识别可以句子为基准进行语义翻译，逐句对手语进行识别。

步骤804，采用通过手语视觉结构化模型对所述手语视频数据进行特征提取，确定手语结构化特征。

步骤806，通过手语特征识别模型对所述手语结构化特征进行识别处理，得到手语识别文本。

如果手语识别模型位于服务端，则可将终端设备采集的手语视频数据发送到服务端，从而在服务端将手语视频数据输入到手语识别模型中，采用手语识别模型对所述手语视频数据进行手语识别，确定对应的手语翻译信息。其中，所述手语结构化模型可基于手语视频数据中的手语结构化要素，识别手语结构化特征，该手语结构化特征包括手语时序特征和手语空间特征。该手语结构化要素可由手语结构化模型直接从手语视频数据中提取，也可由其他模型提取后输入到手语结构化模型进行特征识别。手语结构化模型针对手语视频数据的处理与上述训练过程类似，因此不再赘述。之后可将手语结构化特征输入到手语特征识别模型中，通过手语特征识别模型识别手语结构化特征所表达语义的词汇以及序列，然后再按照所翻译的自然语言的语序进行调整，得到手语识别文本。可以将该手语识别文本确定为手语翻译信息。在另外一些实施例中，也可采用手语识别文本合成语音数据，得到手语翻译语音，添加到手语翻译信息中。

步骤808，反馈所述手语翻译信息。对于服务端侧，可将手语翻译信息发送给终端设备，以便在终端设备侧展示。

在上述实施例的基础上，本申请实施例还提供了一种双向翻译的示例。

参照图9，示出了本申请的一种双向手语翻译方法实施例的步骤流程图。

步骤900，提供手语翻译页面，所述手语翻译页面包括：手语输入区域(或称第一区域)和手语输出区域(或称第二区域)。

步骤910，通过图像采集组件采集第一手语视频数据。可通过本地的摄像头等图像采集组件采集手语用户的第一手语视频数据，如通过手机的前置摄像头采集手语用户的手语视频数据。

步骤912，在手语输入区域显示采集的第一手语视频数据。

步骤914，获取所述第一手语视频数据对应的手语翻译信息。其中，可依据手语识别模型对所述手语视频数据进行手语识别，确定对应的手语翻译信息，其中，所述手语识别模型用于提取所述手语视频数据的手语结构化特征，并依据所述手语结构化特征进行手语识别。手语翻译信息包括手语识别文本和/或手语翻译语音。

如果终端设备侧具有手语识别模型，则可将手语视频数据输入到手语识别模型中，采用手语识别模型对所述手语视频数据进行手语识别，确定对应的手语翻译信息。如果手语识别模型位于服务端，则可将终端设备采集的手语视频数据发送到服务端，从而在服务端将手语视频数据输入到手语识别模型中，采用手语识别模型对所述手语视频数据进行手语识别，确定对应的手语翻译信息。其中，手语识别模型包括手语结构化模型和手语特征识别模型，因此若将手语结构化模型设置在终端设备侧，将手语特征识别模型设置在服务端，从而在终端设备侧提取手语结构化特征，而后上传该手语结构化特征到服务端，在服务端进行手语文本的识别。其中，所述手语结构化模型可基于手语视频数据中的手语结构化要素，识别手语结构化特征，该手语结构化特征包括手语时序特征和手语空间特征。该手语结构化要素可由手语结构化模型直接从手语视频数据中提取，也可由其他模型提取后输入到手语结构化模型进行特征识别。手语结构化模型针对手语视频数据的处理与上述训练过程类似，因此不再赘述。之后可将手语结构化特征输入到手语特征识别模型中，通过手语特征识别模型识别手语结构化特征所表达语义的词汇以及序列，然后再按照所翻译的自然语言的语序进行调整，得到手语识别文本。可以将该手语识别文本确定为手语翻译信息。在另外一些实施例中，也可采用手语识别文本合成语音数据，得到手语翻译语音，添加到手语翻译信息中。

步骤916，通过所述手语翻译页面输出手语翻译信息。从而能够实现对手语数据的采集、识别以及翻译，并输出手语的含义，使得手语用户能够获知手语用户的意思。在终端设备侧可在手语翻译页面中显示手语识别文本，也可通过终端设备播放手语翻译语音，具体可依据需求确定。

步骤920，通过音频输入组件采集语音数据。非手语用户可通过语音进行输入，如就医场景中语音说出“带医保卡了吗”，相应设备可通过麦克风等音频输入组件采集语音数据。然后可获取采集的语音数据对应合成的第二手语视频数据，所述第二手语视频数据为虚拟形象依据所述语音数据的语义执行手语的视频数据，具体包括步骤922-924。另外一些示例中，也可通过文本进行输入，本实例以语音输入为例，如果是文本输入，则可执行步骤924。

步骤922，对所述采集的语音数据进行语音识别，确定对应的文本数据。

步骤924，依据所述文本数据确定手语参数，依据所述手语参数生成包含虚拟形象的第二手语视频数据。

其中，依据所述采集的语音数据识别情绪信息，依据所述情绪信息确定表情参数；所述依据所述手语参数生成包含虚拟形象的第二手语视频数据，包括：依据所述手语参数和表情参数，生成包含虚拟形象的第二手语视频数据。可以对采集的语音数据进行语音识别得到对应的第二文本数据。并且可以对采集的语音数据进行情绪识别，如基于音量、语速以及词汇等多种信息，识别出情绪信息，可基于情绪信息确定对应的表情参数。如情绪信息为生气、高兴、激动等，相应可确定对应情绪的表情参数。然后基于手语参数和表情参数驱动虚拟形象执行手语，其中，可基于3D技术建模来生成虚拟形象，然后基于驱动手语参数和表情参数驱动虚拟形象执行手语的动作以及相应的表情、口型等，并生成第二手语视频数据。

步骤926，在所述手语翻译页面的手语输出区域显示第二手语视频数据。从而手语用户可观看在手语输出区域中显示的虚拟形象的第二手语视频数据，从而了解其他用户的话语，如非手语用户的话语，实现交流。另外，还可将输入对应的文本数据显示在手语翻译页面中，如显示在手语翻译页面的手语输出区域中。

本申请实施例中，手语用户也可称为第一用户，和非手语用户也可称为第二用户。

以下提供一种基于设备和服务器交互来实现手语的无障碍通信的实施例，提供具有手语翻译功能的视频通信页面，远端用户可基于该视频通信页面实现无障碍通信，其中，两个用户可为手语用户和非手语用户。

参照图10，示出了本申请的另一种无障碍通信方法实施例的交互示意图。如图10所示，手语用户和非手语用户均通过视频进行交互，其中，在手语用户(第一设备)侧采集手语视频数据，在非手语用户(第二设备)侧采集语音数据。具体可执行以下步骤：

步骤1000，设备提供视频通信页面，所述视频通信页面包括：本端显示区域和对端显示区域，以本端显示区域为手语输入区域，对端显示区域为手语输出区域为例。以第一设备为手语用户的设备，第二设备为非手语用户的设备为例。例如该手语翻译页面为即时通讯(Instant Messaging，IM)应用程序的视频通信页面。

步骤1002，第一设备通过图像采集组件采集第一视频数据。所述第一视频数据包括第一手手语视频数据。

步骤1004，第一设备在所述视频通话页面的本端显示区域显示所述第一视频数据。

步骤1006，第一设备上传所述采集的第一手语视频数据到服务端。

步骤1008，服务端依据手语识别模型对所述手语视频数据进行手语识别，确定对应的手语翻译信息，其中，所述手语识别模型用于提取所述手语视频数据的手语结构化特征，并依据所述手语结构化特征进行手语识别。所述手语翻译信息包括合成的手语翻译语音、手语识别文本。其中，采用通过手语视觉结构化模型对所述手语视频数据进行特征提取，确定手语结构化特征。通过手语特征识别模型对所述手语结构化特征进行识别处理，得到手语识别文本。

步骤1010，服务端下发所述采集的第一手语视频数据和手语翻译信息。其中，服务端可将手语翻译信息中合成的手语翻译语音、手语识别文本中的至少一个发送给第一设备。对于所反馈的数据可基于各种情况确定，如手语用户的设置、网络情况等确定是否返回手语翻译信息。对于第二设备，服务端可至少返回合成的手语翻译语音、手语识别文本中的至少一个，以便第二设备的用户能够理解手语用户所表达的意思。当然，也可基于设置、网络情况等反馈采集的手语视频数据到第二设备处。

如果该通信场景应用于将手语单向翻译成自然语言的场景，则服务端向第二设备侧反馈以上手语视频数据和手语翻译信息，从而可在第二设备中显示手语视频数据并输出相应的手语翻译信息，使得手语用户和非手语用户能够进行交互。例如该手语用户为语障用户，其可以听懂非手语用户的话语，但无法说话而是要采用手语沟通，在此种场景下，实现对手语的翻译，则非手语用户也可理解该手语的意思，使得两个用户实现无障碍的沟通。

而如果该通信场景要进行手语和自然语言的双向翻译，则还需要将非手语用户的自然语言翻译成手语，可执行以下步骤：

步骤1012，第二设备的音频输入组件采集语音数据。

步骤1014，第二设备上传所述采集的语音数据到服务端。

其中，如果第二设备采集的是视频数据，则可直接传输视频数据到服务端，服务端可从该视频数据中分离出语音数据进行翻译。

步骤1016，服务端依据采集的语音数据生成合成的手语视频数据。

服务端可对所述语音数据进行语音识别，确定对应的文本数据。依据所述文本数据确定手语参数，并依据所述采集的语音数据识别情绪信息，依据所述情绪信息确定表情参数。依据所述手语参数和表情参数，生成包含虚拟形象的合成的手语视频数据。

步骤1018，服务端发送合成的手语视频数据给第一设备。

服务端发送合成的手语视频数据给第一设备。也可将文本数据、采集的语音数据发送到第一设备。而对于第二设备，可基于设置、网络情况等确定是否反馈合成的手语视频数据、文本数据、采集的语音数据。

步骤1020，第一设备在手语输出区域显示所述采集的手语视频数据。

从而手语用户通过手语翻译页面可以与非手语用户进行无障碍通信。

本申请实施例中，对于手语视频数据进行翻译，在翻译的过程中，还可将手语识别结果反馈给手语用户，以便手语用户确认是否准确，如果不准确可基于相应的调整控件调整文本，在调整时还可给出相应的候选建议。另外，在自然语言翻译成手语的过程中，将虚拟形象的手语视频数据展示给手语用户后，还可通过手语视频数据提示已经输出完毕，以及确认手语用户是否明白之前虚拟形象手语的意思，如果不确认，则可给出翻译调整控件，并相应的候选文本，从而基于候选文本来调整虚拟形象的手语视频数据，提高翻译的准确性。

在上述实施例的基础上，本申请实施例还提供了一种手语教学方法，如图11所示。

步骤1102，提供手语教学页面。

步骤1104，在所述手语教学页面显示目标教学信息。

步骤1106，通过图像采集组件采集第一手语视频数据，并在所述手语教学页面的手语输入区域显示所述第一手语视频数据，所述第一手语视频数据为手语用户依据所述目标教学信息执行手语的视频数据。

手语教学页面包括手语输入区域和手语输出区域，该手语输出区域用于显示虚拟形象的标准手语，以便进行教学对照。因此可在手语教学页面显示目标教学信息，该目标教学信息可为文本数据，一些示例中也可采用语音数据。目标教学信息为用户需要输入手语的信息。相应用户可基于该目标教学信息执行手语，设备通过图像采集组件采集用户的第一手语视频数据。

步骤1108，上传所述第一手语视频数据。

步骤1110，接收所述第一手语视频数据对应的手语翻译信息，以及合成的第二手语视频数据，所述手语翻译信息为第一手语视频数据通过手语识别模型提取手语结构化特征，并执行手语识别处理的得到的，所述第二手语视频数据为所述虚拟形象执行所述目标教学信息的手语教学视频数据。

步骤1112，在所述手语教学页面的手语输出区域显示所述第二手语视频数据，以便手语用户学习手语。

上传所述第一手语视频数据到服务端，服务端可通过手语视觉结构化模型对所述手语视频数据进行特征提取，确定手语结构化特征；通过手语特征识别模型对所述手语结构化特征进行识别处理，得到手语识别文本。基于该手语识别文本确定与目标教学信息是否一致，从而确定用户的手语是否正确。如果用户的手语存在问题，如存在错误或者不标准等，还可将虚拟形象的第二手语视频数据和第一手语视频数据进行比较，确定待矫正的手语信息。然后可基于待矫正的手语信息，在第二手语视频数据或第一手语视频数据中添加矫正标记。从而能够在设备上显示第一手语视频数据和标准的第二手语视频数据进行对照。用户还可基于手语视频数据中的矫正标记确定需要矫正的手语动作。

当前有一些隐式特征的识别方法，其是采用大规模的手语数据集进行手语识别神经网络学习，这种学习方式是直接应用了神经网络来隐式地学习手语动作的特征表达，这是一个黑盒学习过程，不能针对一些细节信息、特定动作、特定类目进行有目的性的精度提升。相比于以上通过神经网络直接学习手语动作的识别精度低的问题，本申请实施例引入了视觉结构化的方法，通过提取细粒度的结构化信息，显式地、有针对性地、定制化地进行神经网络学习的调优，从而实现高精度、泛化性强的手语识别技术。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

在上述实施例的基础上，本实施例还提供了一种手语翻译装置，应用于终端设备中。

获取模块，用于获取手语视频数据。手语识别模块，用于依据手语识别模型对所述手语视频数据进行手语识别，依据手语识别结果确定对应的手语翻译信息，其中，所述手语识别模型用于提取所述手语视频数据的手语结构化特征，并依据所述手语结构化特征进行手语识别。输出模块，用于输出所述手语翻译信息。

所述手语识别模块，用于采用将手语识别结果中的手语识别文本作为手语翻译信息；和/或，采用手语识别结果中的手语识别文本进行语音合成，将合成的手语翻译语音作为手语翻译信息。

输出模块，还用于提供手语翻译页面；在所述手语翻译页面中播放所述手语视频数据；在所述手语翻译页面中显示手语识别文本，和/或，基于所述手语翻译页面播放所述手语翻译音频。

调整模块，用于响应于对所述手语翻译页面中语言选择控件的触发，显示语言可选项；响应于对语言可选项的触发，确定选择的目标语言，所述目标语言为手语视频数据翻译的语言。

所述调整模块，用于响应于输出调整指令，调整所述手语翻译信息的输出方式，所述输出方式包括：语音输出方式、文本输出方式和\或视频输出方式。

所述手语翻译页面包括手语输入区域和手语输出区域，输出模块，还用于在所述手语翻译页面的手语输入区域播放所述手语视频数据；在所述手语翻译页面的手语输出区域播放合成的手语视频数据，所述合成的手语视频数据为采用虚拟形象执行手语的视频数据，虚拟形象执行的手语依据输入信息确定。

所述手语识别模块，用于通过手语视觉结构化模型对所述手语视频数据进行特征提取，确定手语结构化特征；通过手语特征识别模型对所述手语结构化特征进行识别处理，得到手语识别文本。

辅助模块，用于基于设定条件确定场景信息，并依据所述场景信息确定场景参数，以通过所述场景参数辅助手语翻译。

一个可选实施例中，提供一种双向手语翻译装置：输出模块，用于提供手语翻译页面；在所述手语翻译页面的手语输入区域显示第一手语视频数据；获取所述第一手语视频数据对应的手语翻译信息，所述手语翻译信息为手语视频数据通过手语识别模型提取手语结构化特征，并执行手语识别处理的得到的；通过所述手语翻译页面输出所述手语翻译信息；获取采集的语音数据对应合成的第二手语视频数据，所述第二手语视频数据为虚拟形象依据所述语音数据的语义执行手语的视频数据；在所述手语翻译页面的手语输出区域显示所述第二手语视频数据。

采集模块，用于通过图像采集组件采集第一手语视频数据；通过音频输入组件采集语音数据。

一个可选实施例中，提供一种手语客服装置：输出模块，用于提供手语客服页面；在所述手语客服页面的手语输入区域显示所述第一手语视频数据；确定所述第一手语视频数据对应的手语翻译信息，以在客服页面中输出所述手语翻译信息，所述手语翻译信息为第一手语视频数据通过手语识别模型提取手语结构化特征，并执行手语识别处理的得到的；接收依据客服的服务答复信息合成的第二手语视频数据，所述第二手语视频数据为虚拟形象依据所述服务答复信息的语义执行手语的视频数据；在所述手语客服页面的手语输出区域显示所述第二手语视频数据。

采集模块，用于通过图像采集组件采集第一手语视频数据。

一个可选实施例中，提供一种手语通信装置：输出模块，用于提供视频通信页面；在所述视频通话页面的本端显示区域显示所述第一视频数据，所述第一视频数据包括第一手语视频数据；在所述视频通话页面的本端显示区域显示所述第一手语视频数据的手语翻译信息，所述手语翻译信息为第一手语视频数据通过手语识别模型提取手语结构化特征，并执行手语识别处理的得到的；接收根据对端的通信信息合成的第二手语视频数据，所述第二手语视频数据为虚拟形象依据所述通信信息的语义执行手语的视频数据，所述通信信息包括文本信息、语音信息和视频信息中的至少一种；在所述视频通话页面的对端显示区域显示所述第二手语视频数据。

采集模块，用于通过图像采集组件采集第一视频数据。

一个可选实施例中，提供一种手语教学装置：输出模块，用于提供手语教学页面；在所述手语教学页面显示目标教学信息；在所述手语教学页面的手语输入区域显示所述第一手语视频数据，所述第一手语视频数据为手语用户依据所述目标教学信息执行手语的视频数据；接收所述第一手语视频数据对应的手语翻译信息，以及合成的第二手语视频数据，所述手语翻译信息为第一手语视频数据通过手语识别模型提取手语结构化特征，并执行手语识别处理的得到的，所述第二手语视频数据为所述虚拟形象执行所述目标教学信息的手语教学视频数据；在所述手语教学页面的手语输出区域显示所述第二手语视频数据，以便手语用户学习手语。

采集模块，用于通过图像采集组件采集第一手语视频数据，并上传所述第一手语视频数据。

综上，获取手语视频数据，依据手语识别模型对所述手语视频数据进行手语识别，确定对应的手语翻译信息，其中，所述手语识别模型用于提取所述手语视频数据的手语结构化特征，并依据所述手语结构化特征进行手语识别，显式地增强手语识别网络的学习能力，提升最终的识别精度，输出所述手语翻译信息，从而便捷的进行手语翻译。

相比于通过神经网络直接隐式学习手语动作的识别精度低的问题，本申请实施例引入了视觉结构化的方法，通过提取细粒度的结构化信息，显式地、有针对性地、定制化地进行神经网络学习的调优，从而实现高精度、泛化性强的手语识别技术。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。

本申请实施例提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得电子设备执行如上述实施例中一个或多个所述的方法。本申请实施例中，所述电子设备包括终端设备、服务器(集群)等各类型的设备。

本公开的实施例可被实现为使用任意适当的硬件，固件，软件，或及其任意组合进行想要的配置的装置，该装置可包括数据中心内的终端设备、服务器(集群)等电子设备。图12示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置1200。

对于一个实施例，图12示出了示例性装置1200，该装置具有一个或多个处理器1202、被耦合到(一个或多个)处理器1202中的至少一个的控制模块(芯片组)1204、被耦合到控制模块1204的存储器1206、被耦合到控制模块1204的非易失性存储器(NVM)/存储设备1208、被耦合到控制模块1204的一个或多个输入/输出设备1210，以及被耦合到控制模块1204的网络接口1212。

处理器1202可包括一个或多个单核或多核处理器，处理器1202可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中，装置1200能够作为本申请实施例中所述终端设备、服务器(集群)等设备。

在一些实施例中，装置1200可包括具有指令1214的一个或多个计算机可读介质(例如，存储器1206或NVM/存储设备1208)以及与该一个或多个计算机可读介质相合并被配置为执行指令1214以实现模块从而执行本公开中所述的动作的一个或多个处理器1202。

对于一个实施例，控制模块1204可包括任意适当的接口控制器，以向(一个或多个)处理器1202中的至少一个和/或与控制模块1204通信的任意适当的设备或组件提供任意适当的接口。

控制模块1204可包括存储器控制器模块，以向存储器1206提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。

存储器1206可被用于例如为装置1200加载和存储数据和/或指令1214。对于一个实施例，存储器1206可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，存储器1206可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。

对于一个实施例，控制模块1204可包括一个或多个输入/输出控制器，以向NVM/存储设备1208及(一个或多个)输入/输出设备1210提供接口。

例如，NVM/存储设备1208可被用于存储数据和/或指令1214。NVM/存储设备1208可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。

NVM/存储设备1208可包括在物理上作为装置1200被安装在其上的设备的一部分的存储资源，或者其可被该设备访问可不必作为该设备的一部分。例如，NVM/存储设备1208可通过网络经由(一个或多个)输入/输出设备1210进行访问。

(一个或多个)输入/输出设备1210可为装置1200提供接口以与任意其他适当的设备通信，输入/输出设备1210可以包括通信组件、音频组件、传感器组件等。网络接口1212可为装置1200提供接口以通过一个或多个网络通信，装置1200可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信，例如接入基于通信标准的无线网络，如WiFi、2G、3G、4G、5G等，或它们的组合进行无线通信。

对于一个实施例，(一个或多个)处理器1202中的至少一个可与控制模块1204的一个或多个控制器(例如，存储器控制器模块)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器1202中的至少一个可与控制模块1204的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例，(一个或多个)处理器1202中的至少一个可与控制模块1204的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器1202中的至少一个可与控制模块1204的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。

在各个实施例中，装置1200可以但不限于是：服务器、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中，装置1200可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，装置1200包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。

其中，检测装置中可采用主控芯片作为处理器或控制模块，传感器数据、位置信息等存储到存储器或NVM/存储设备中，传感器组可作为输入/输出设备，通信接口可包括网络接口。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种手语翻译方法和装置、一种终端设备和一种机器可读介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 手语翻译、客服、通信方法、设备和可读介质 [P] . 中国专利： CN113822186A . 2021-12-21
2. 手语视频生成、翻译、客服方法、设备和可读介质 [P] . 中国专利： CN113835522A . 2021-12-24
3. SIGN LANGUAGE TEACHING APPARATUS AND COMPUTER READABLE RECORDING MEDIUM RECORDED WITH SIGN LANGUAGE TEACHING PROGRAM [P] . 日本专利： JP2000003127A . 2000-01-07

机译：手语教学设备和用手语教学程序记录的计算机可读记录介质
4. Sign language education system, and computer-readable recording medium storing a sign language educational program [P] . 日本专利： JP3591309B2 . 2004-11-17

机译：手语教育系统和存储手语教育程序的计算机可读记录介质
5. Sign language video presentation device, sign language video I/O device, and sign language interpretation system [P] . AU2003264435B2 . 2007-04-19

机译：手语视频呈现设备，手语视频I / O设备和手语翻译系统