首页> 中国专利> 一种中文文本到手语词序列的翻译方法及装置

一种中文文本到手语词序列的翻译方法及装置

摘要

本申请提出的中文文本到手语词序列的翻译方法、装置及存储介质,获取待翻译的中文文本,对中文文本进行预处理,得到预处理文本,通过目标翻译模型对预处理文本进行翻译,得到对应的手语词序列,对手语词序列进行后处理,得到目标手语词序列。由此可知,本申请是通过统一的手语标注方法得到中文文本对应的标注手语词序,并对标准手语词序列进行修正后得到双语语料库,使得双语语料库的翻译结果符合手语语法,从而提高了该双语预料库中翻译结果的准确度,进而提高了利用该双语语料库训练得到的目标翻译模型的翻译准确率,同时提高了中文文本的翻译效率。

著录项

  • 公开/公告号CN114840670A

    专利类型发明专利

  • 公开/公告日2022-08-02

    原文格式PDF

  • 申请/专利权人 北京智谱华章科技有限公司;

    申请/专利号CN202210471465.X

  • 申请日2022-04-28

  • 分类号G06F16/35(2019.01);G06F40/295(2020.01);G09B21/00(2006.01);

  • 代理机构北京清亦华知识产权代理事务所(普通合伙) 11201;

  • 代理人单冠飞

  • 地址 100084 北京市海淀区中关村东路1号院6号楼6层603A

  • 入库时间 2023-06-19 16:14:25

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-19

    实质审查的生效 IPC(主分类):G06F16/35 专利申请号:202210471465X 申请日:20220428

    实质审查的生效

说明书

技术领域

本申请涉及机器学习技术领域,尤其涉及一种中文文本到手语词序列的翻译方法、装置及存储介质。

背景技术

据统计,目前我国的听障人士数量已经达到2700万。听障人士之间可以使用手语作为日常交流的主要方式,而大部分听力正常人无法看懂手语,因此听障人士与听力正常人之间交流极为不便,迫切需要开发方便听障人士与正常人交流的工具。

相关技术中,翻译问题一般属于自然语言处理(NLP)领域,翻译问题的一个关键点是数据集的构建与处理。而在手语领域,目前还没有公开的大规模的手语数据集,也没有统一的手语标注方法,使得手语翻译的数据量不足或对手语语法理解不足,从而导致通过对上述翻译数据集学习得到的翻译结果的准确度较低,难以被手语使用者认可。

发明内容

本申请提供一种中文文本到手语词序列的翻译方法、装置及存储介质,以提出一种中文文本到手语词序列的翻译方法。

本申请第一方面实施例提出一种中文文本到手语词序列的翻译方法,包括:

获取待翻译的中文文本;

对所述待翻译的中文文本进行预处理,得到预处理文本;

通过目标翻译模型对所述预处理文本进行翻译,得到对应的手语词序列;

对所述手语词序列进行后处理,得到目标手语词序列。

本申请第二方面实施例提出一种中文文本到手语词序列的翻译装置,包括:

获取模块,用于获取待翻译的中文文本;

预处理模块,用于对所述待翻译的中文文本进行预处理,得到预处理文本;

翻译模块,用于通过目标翻译模型对所述预处理文本进行翻译,得到对应的手语词序列;

后处理模块,用于对所述手语词序列进行后处理,得到目标手语词序列。

本申请第三方面实施例提出的计算机存储介质,其中,所述计算机存储介质存储有计算机可执行指令;所述计算机可执行指令被处理器执行后,能够实现如上第一方面所述的方法。

本申请的实施例提供的技术方案至少带来以下有益效果:

本申请提出的中文文本到手语词序列的翻译方法、装置及存储介质,获取待翻译的中文文本,对中文文本进行预处理,得到预处理文本,通过目标翻译模型对预处理文本进行翻译,得到对应的手语词序列,对手语词序列进行后处理,得到目标手语词序列。由此可知,本申请是通过统一的手语标注方法得到中文文本对应的标注手语词序,并对标准手语词序列进行修正后得到双语语料库,使得双语语料库的翻译结果符合手语语法,从而提高了该双语预料库中翻译结果的准确度,进而提高了利用该双语语料库训练得到的目标翻译模型的翻译准确率,同时提高了中文文本的翻译效率。

本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为根据本申请一个实施例提供的中文文本到手语词序列的翻译方法的流程示意图;

图2为根据本申请一个实施例提供的中文文本到手语词序列的翻译装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的中文文本到手语词序列的翻译方法及装置。

实施例一

图1为根据本申请一个实施例提供的中文文本到手语词序列的翻译方法的流程示意图,如图1所示,可以包括:

步骤101、获取待翻译的中文文本。

其中,在本申请的一个实施例中,上述获取的待翻译的中文文本可以是用户输入的。以及,在本申请的另一个实施例之中,上述获取的待翻译的中文文本可以是用户上传的文档,例如word文档。

步骤102、对待翻译的中文文本进行预处理,得到预处理文本。

其中,在本申请的一个实施例之中,基于步骤101获取到的待翻译的中文文本中可能存在错误,或是符号字母不统一,且听障人士在使用手语时,会忽略大量不重要的信息(例如,无实际意义的介词、虚词),并使用非常简练的词汇来表达。若待翻译的中文文本中存在大量无实际意义的词,可能会导致翻译结果不准确,因此在进行翻译之前需要对该中文文本进行预处理。

其中,在本申请的一个实施例之中,对待翻译的中文文本进行预处理,得到预处理文本的方法可以包括以下步骤:

步骤1021、提取待翻译的中文文本中的命名实体。

其中,在本申请的一个实施例之中,上述命名实体可以是人名、官方地点名称。以及,手语对人名的翻译方式比较特别,并且人名的组合方式较多,因此不能直接命名实体进行翻译,需要在翻译之前进行提取。

以及,在本申请的一个实施例之中,还会对该中文文本进行情感分析,收集情感信息。

步骤1022、对待翻译的中文文本进行修正,得到所述预处理文本。

其中,在本申请的一个实施例之中,对待翻译的中文文本进行修正的方法包括:使用规范的全角、半角符号与非中文字符,并对该中文文本进行错误分析并修正。其中,对该中文文本的错误分析包括错别字、语义冗余重复和语义缺失中的至少一种。

步骤103、通过目标翻译模型对预处理文本进行翻译,得到对应的手语词序列。

其中,在本申请的一个实施例之中,目标翻译模型包括输入层、编码层、解码层、输出层,上述通过目标翻译模型对预处理文本进行翻译,得到对应的手语词序列的方法可以包括以下步骤:

步骤1031、输入层将预处理文本转换为词向量,并且向每个词向量中添加其在预处理文本中的位置及上下文信息。

其中,在本申请的一个实施例之中,输入层通过BPE算法将预处理文本进行分词,将每个词映射为多维的词向量,然后将每个词向量与预训练的位置向量叠加,得到预处理文本对应的文本向量。示例的,可以将上述每个词映射为512维的词向量。

步骤1032、编码层通过多层多头自注意力机制处理词向量,得到编码层词向量。

其中,在本申请的一个实施例之中,编码层可以包括多个子编码层,每个子编码层包括多头自注意力层与前向全连接层,多头自注意力层使用多个自注意力头,将输入文本向量分割对应的多个部分,使预设翻译模型能够综合考虑文本向量中的信息并充分理解,最终得到编码层词向量。

示例的,编码层包括6个子编码层,每个子编码层包括多头自注意力层与前向全连接层,多头自注意力层使用8个自注意力头,并将输入文本向量分为对应的8个部分。

以及,在本申请的一个实施例之中,在多头自注意力层与前向全连接层计算的过程中,还会通过规范化与残差连接层来提升性能。

步骤1033、解码层使用自循环结构,将编码层词向量与上一次输出的解码层词向量进行互注意力计算,生成编码层向量对应的解码层词向量。

步骤1034、输出层将解码层词向量转化为输出层词向量,并通过输出层词向量得到每个位置对应的手语词出现的概率,通过集束搜索算法得到预处理文本对应的手语词序列并输出。

其中,在本申请的一个实施例之中,输出层通过两层的全连接层与softmax算法,将解码层词向量中每个位置的词向量转换为输出层词向量中每个位置的词向量,其中输出层词向量中每个位置的词向量的大小为预处理文本中词的总数,输出层词向量中的每个值代表对应手语词在该位置出现的概率,通过集束搜索算法得到出现概率最高的手语词序列,该手语词序列为预处理文本对应的手语词序列,然后输出层输出该手语词序列。

以及,在本申请的一个实施例之中,通过目标翻译模型对预处理文本进行翻译,得到对应的手语词序列,之前,还包括:基于预训练语言模型进行模型搭建与训练得到目标翻译模型。

其中,在本申请的一个实施例之中,上述基于预训练语言模型进行模型搭建与训练得到目标翻译模型的方法可以包括以下步骤:

步骤1、获取双语语料库。

步骤2、通过剪枝方法和迁移学习构建预设翻译模型。

步骤3、利用双语语料库训练预设翻译模型,训练完成后的翻译模型为目标翻译模型。

其中,在本申请的一个实施例之中,在训练的过程中,与中文无关的参数冗余信息过多,会使得模型训练的结果存在误差,基于此,需要通过剪枝方法与迁移学习构建预设翻译模型。具体的,剪枝方法的过程可以包括:将输入预训练语言模型的预处理文本中的英文、数字、标点符号及中文保存下来,其余内容删除,并将预训练语言模型输出的手语词序列中与中文文本无关的内容删除。迁移学习是将通过剪枝后的模型在测试的翻译任务上进行微调,也即是将测试的中文文本作为模型输入,将模型的输出结果与测试中文文本对应的手语词序列进行比较计算模型损失,并通过反向传播对该模型的参数进行调整,经过多轮微调,当模型的损失到达最低时,对应的翻译模型为目标翻译模型。

以及,在本申请的一个实施例之中,上述获取双语语料库可以包括以下步骤:

步骤a、获取中文文本和中文文本对应的标注手语词序列。

其中,在本申请的一个实施例之中,可以通过标注人员对手语视频和中文文本进行标注,得到对应的标注手语词序列。具体的,当标注人员仅通过手语视频进行标注时,标注人员可以先根据手语视频翻译为对应的中文文本,然后再根据手语视频将对应的标注手语词序列记录下来;当标注人员既有手语视频又有对应的中文文本时,标注人员可以直接根据手语视频将对应的标注手语词序列记录下来;当标注人员仅通过中文文本进行标注时,标注人员可以通过查看中文文本,构想手语动作,然后将其标注成对应的标注手语词序列,不需要先由手语使用者录制手语视频再进行标注。通过上述方法,可以得到中文文本和中文文本对应的标注手语词序列。

以及,在本申请的一个实施例之中,上述标注人员具备手语基础,当标注人员进行标注的过程中,会按照标注方法所列出的规则对手语进行标注,使不同的标注人员标注的结果和/或同一标注人员在不同时期标注的结果能够统一,有利于后续双语语料库的构建。

进一步地,上述标注方法是依据“国家通用手语”系列图书与大量手语使用者的意见,设计了科学的手语标注方法。具体的,依据手语的语法设定了一系列的规则,用于将在国家通用手语中没有直接出现的词汇标注成手语词序列,并确保得到的标注结果可以用国家通用手语表达,依据手语的语法设定了一系列的规则,用于准确表达包含数字的特殊词汇,使用有限的词表对不可穷尽的数字进行标注,从而使得标注人员可以方便快捷准确地对手语视频或者中文文本进行标注,且通过该标注方法得到的标注结果中的用词是基于国家通用手语以及计算机、数学、体育及律动通用手语,标注结果中的语法符合手语语法。

步骤b、提取中文文本中的命名实体。

步骤c、对中文文本对应的标注手语词序列进行修正,得到手语词序列。

其中,在本公开的一个实施例之中,对中文文本对应的标注手语词序列进行修正的方法可以包括:

对标注手语词序列进行词序列顺序修改;

对标注手语词序列进行OOV(out of vocabulary,未登录词)拆分;

对标注手语词序列进行不规范用词的替换。

具体的,在本公开的一个实施例之中,对标注手语词序列进行词序列顺序修改的方法可以包括:利用提取的中文文本中的命名实体,并根据上述标注方法中规定的命名实体标注规则对命名实体进行标注。

以及,在本申请的一个实施例之中,对标注手语词序列进行OOV拆分的方法可以包括:通过分词方法,将标注手语词序列中不在国家通用手语词表内的词分为多个词,并分别用国家通用手语词表内的词替换。

进一步地,在本申请的一个实施例之中,对标注手语词序列进行不规范用词的替换的方法可以包括:对中文文本和该中文文本对应的标注手语词序列进行分析,识别中文文本中的不规范用词,并根据上述标注方法中规定的标注规则对不规范用词进行标注。

步骤d、利用提取的中文文本中的命名实体,对第一手语词序列中的命名实体进行核对和替换,得到第二手语词序列。

其中,在本申请的一个实施例之中,通过上述步骤c到修正后的第一手语词序列后,会利用提取的中文文本中的命名实体对第一手语词序列进行核对,检查第一手语词序列中的命名实体的标注是否正确。若存在不正确的标注,则利用上述标注准则中的命名实体规则对其进行替换,得到第二手语词序列,否则上述第一手语词序列直接为第二手语词序列。

步骤e、将中文文本与第二手语词序列,对应存储到双语语料库。

其中,在本申请的一个实施例之中,在将中文文本与第二手语词序列,对应存储到双语语料库之前,还包括:将中文文本与双语语料库中已有内容进行重复判断,若双语语料库中已存在中文文本,则通过标注人员确定中文文本在双语语料库中应对应的手语词序列。

具体的,在本申请的一个实施例之中,可以根据编辑距离和文本长度计算中文文本与双语语料库中的已有内容的相似度,并根据相似度进行重复判断。

其中,在本申请的一个实施例之中,计算编辑距离的方法可以包括:计算两个字串之间,由一个转换成另一个所需的最少编辑操作次数。其中,上述编辑操作可以包括:将其中一个字符替换成另一个字符、插入一个字符、删除一个字符。

以及,在本申请的一个实施例之中,编辑距离和文本长度有关,文本长度较长对应的编辑距离往往较低,基于此,通过编辑距离除以文本长度得到两个文本的相似度。其中,当两个文本的相似度超过预设阈值时,则认为两个文本相同,否则,认为两个文本不相同。

进一步地,在本申请的一个实施例之中,若判断双语语料库中已存在中文文本,则会提示标注人员,标注人员可以将双语语料库中对应的手语词序列与第二手语词序列进行比较,从而确定该中文文本在双语语料库中应对应的手语词序列。其中,若标注人员确定第二手语词序列比双语语料库中已有的手语词序列更合适,则将得到的第二手语词序列替换双语语料库中已有的手语词序列;否则,中文文本与中文文本对应的第二手语词序列均不会存储到双语语料库中。

步骤104、对手语词序列进行后处理,得到目标手语词序列。

其中,在本公开的一个实施例中,对手语词序列进行后处理,得到目标手语词序列的方法可以包括以下步骤:

步骤1041、对手语词序列进行修正,得到修正后的手语词序列。

其中,在本申请的一个实施例之中,对手语词序列进行修正的方法可以包括:

对手语词序列进行词序列顺序修改;

对手语词序列进行OOV拆分;

对手语词序列进行不规范用词的替换。

以及,本步骤中对手语词序列进行修正的方法的详细介绍可以参开上述对中文文本对应的标注手语词序列进行修正的方法,本步骤在此不再赘述。

步骤1042、对修正后的手续词序列中的命名实体进行校对与替换,得到目标手语词序列。

其中,在本申请的一个实施例之中,在对修正后的手续词序列中的命名实体进行校对与替换之前,还可以根据上述步骤提取到的待翻译的中文文本的情感分析信息,在修正后的手续词序列添加相应的情感标记,从而可以更准确地表达手语的内容,以便得到的目标手语词序列后续可以直接用于生成手语视频或其他相关工作。

以及,在本申请的一个实施例之中,通过上述步骤1041到修正后的手语词序列后,会利用上述步骤102中提取的待翻译的中文文本中的命名实体对修正后的手语词序列进行核对,检查修正后的手语词序列中的命名实体的标注是否正确。若存在不正确的标注,则利用上述标注准则中的命名实体规则对其进行替换,得到目标手语词序列,否则上述修正后的手续词序列直接为目标手语词序列。

进一步地,在本申请的一个实施例之中,经过后处理的手语词序列可以根据需要,用于不同的领域。其中,在本申请的一个实施例中,经过后处理的手语词序列可以用于产生不同的手语画面,比如在电视直播时,可以将主持人的播音稿经过翻译后用于驱动虚拟数字主播。在本公开的另一个实施例中,经过后处理的手语词序列可以用于手语教学,根据用户的输入文本,播放事先录制好的手语视频,不用人为进行录制。

本申请提出的中文文本到手语词序列的翻译方法,获取待翻译的中文文本,对中文文本进行预处理,得到预处理文本,通过目标翻译模型对预处理文本进行翻译,得到对应的手语词序列,对手语词序列进行后处理,得到目标手语词序列。由此可知,本申请是通过统一的手语标注方法得到中文文本对应的标注手语词序,并对标准手语词序列进行修正后得到双语语料库,使得双语语料库的翻译结果符合手语语法,从而提高了该双语预料库中翻译结果的准确度,进而提高了利用该双语语料库训练得到的目标翻译模型的翻译准确率,同时提高了中文文本的翻译效率。

实施例二

图2为根据本申请一个实施例提供的中文文本到手语词序列的翻译装置的结构示意图,如图2所示,所述装置可以包括:

获取模块201,用于获取待翻译的中文文本;

预处理模块202,用于对待翻译的中文文本进行预处理,得到预处理文本;

翻译模块203,用于通过目标翻译模型对预处理文本进行翻译,得到对应的手语词序列;

后处理模块204,用于对手语词序列进行后处理,得到目标手语词序列。

本申请提出的中文文本到手语词序列的翻译装置,获取待翻译的中文文本,对中文文本进行预处理,得到预处理文本,通过目标翻译模型对预处理文本进行翻译,得到对应的手语词序列,对手语词序列进行后处理,得到目标手语词序列。由此可知,本申请是通过统一的手语标注方法得到中文文本对应的标注手语词序,并对标准手语词序列进行修正后得到双语语料库,使得双语语料库的翻译结果符合手语语法,从而提高了该双语预料库中翻译结果的准确度,进而提高了利用该双语语料库训练得到的目标翻译模型的翻译准确率,同时提高了中文文本的翻译效率。

为了实现上述实施例,本公开还提出一种计算机存储介质。

本公开实施例提供的计算机存储介质,存储有可执行程序;所述可执行程序被处理器执行后,能够实现如图1所示的方法。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。

尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号