首页> 中国专利> 俄汉语音翻译方法、俄汉语音翻译装置及存储介质

俄汉语音翻译方法、俄汉语音翻译装置及存储介质

摘要

本公开关于一种俄汉语音翻译方法、俄汉语音翻译装置及存储介质。俄汉语音翻译方法,包括:获取待翻译的俄语语音,并将待翻译的俄语语音转换为待翻译梅尔谱图。通过预先训练好的俄汉语音翻译模型,将待翻译梅尔谱图翻译成目标梅尔谱图。根据目标梅尔谱图,得到待翻译的俄语语音对应的汉语语音。通过本公开提供的俄汉语音翻译方法,先将待翻译的俄语语音转换为待翻译梅尔谱图,能够准确表征待翻译的俄语语音的语音特征,进而采用训练好的俄汉语音翻译模型将其翻译成目标梅尔谱图,得到待翻译的俄语语音对应的汉语语音时,便可以降低准确率折损严重的问题,有助于提升翻译质量。且有助于加快俄汉语音翻译速率,有利于提升对俄的信息处理能力。

著录项

  • 公开/公告号CN112767918A

    专利类型发明专利

  • 公开/公告日2021-05-07

    原文格式PDF

  • 申请/专利号CN202110018492.7

  • 申请日2021-01-07

  • 分类号G10L15/02(20060101);G06F40/58(20200101);G06N3/04(20060101);G06N3/08(20060101);G10L15/06(20130101);G10L15/16(20060101);G10L15/22(20060101);G10L19/16(20130101);G10L25/24(20130101);

  • 代理机构11722 北京钲霖知识产权代理有限公司;

  • 代理人李志新;刘亚平

  • 地址 450001 河南省郑州市中原区科学大道

  • 入库时间 2023-06-19 10:54:12

说明书

技术领域

本公开涉及语音识别技术领域,尤其涉及一种俄汉语音翻译方法、俄汉语音翻译装置及存储介质。

背景技术

现有的语音翻译系统,主要针对的是英、日、德等适用范围广,使用人数较多的语种,而对民族语言、小语种等语音翻译较少。

相关技术中,针对俄汉语音翻译,主要包括两种方式。第一种是将带翻译的俄语经过语音识别后,再进行相应的翻译和语音合成。但采用该种方式,经过语音识别、翻译和语音合成这等多步处理,折损率严重,容易导致最终经过翻译得到的汉语语音翻译质量不佳。另一种主要采用的是人工翻译,导致语音中信息处理速度慢,且由于翻译人员匮乏,容易导致大量重要信息未得到及时处理而使得其价值流失。

发明内容

为克服相关技术中存在的问题,本公开提供一种俄汉语音翻译方法、俄汉语音翻译装置及存储介质。

根据本公开实施例的第一方面,提供一种俄汉语音翻译方法,包括:获取待翻译的俄语语音,并将所述待翻译的俄语语音转换为待翻译梅尔谱图。通过预先训练好的俄汉语音翻译模型,将所述待翻译梅尔谱图翻译成目标梅尔谱图。根据所述目标梅尔谱图,得到所述待翻译的俄语语音对应的汉语语音。

在一实施例中,所述俄汉语音翻译模型包括:长短时记忆网络、局部注意力机制和双向长短时记忆网络。所述通过预先训练好的俄汉语音翻译模型,将所述待翻译梅尔谱图翻译成目标梅尔谱图,包括:将所述待翻译多帧梅尔谱图通过长短时记忆网络进行编码,得到待翻译中间向量。将所述待翻译向量基于局部注意力机制进行聚焦,确定所述待翻译中间向量的注意向量。通过双向长短时记忆网络,将确定注意向量后的所述待翻译中间向量进行解码,得到所述待翻译梅尔谱图翻译后的对应汉语的目标梅尔谱图。

在另一实施例中,所述俄汉语音翻译模型采用下述方式训练得到:获取训练语音集对应的多个训练梅尔谱图,所述训练语料集包括多条俄语训练语音,所述训练梅尔谱图与所述俄语训练语音相对应。获取汉语语音集对应的多个汉语梅尔谱图,所述汉语梅尔谱图与所述俄语训练语音的汉语训练语音相对应。将所述训练梅尔谱图输入至端到端模型中,并基于局部注意力机制,得到所述训练梅尔谱图对应的翻译梅尔谱图。基于所述翻译梅尔谱图和所述汉语梅尔谱图训练所述端到端模型,得到所述俄汉语音翻译模型。

在又一实施例中,所述基于所述翻译梅尔谱图和所述汉语梅尔谱图训练所述端到端模型,得到所述俄汉语音翻译模型,包括:根据所述翻译梅尔谱图,得到所述俄语训练语音对应翻译的汉语语音。获取所述目标梅尔谱图对应的汉语训练语音。基于所述汉语语音与所述汉语训练语音之间的对比结果,训练所述端到端模型,得到所述俄汉语音翻译模型。

在又一实施例中,在得到所述俄汉语音翻译模型之前,所述俄汉语音翻译模型的训练方式还包括:确定所述汉语语音的流畅度。

在又一实施例中,所述基于所述汉语语音与所述汉语训练语音之间的对比结果,训练所述端到端模型,得到所述俄汉语音翻译模型,包括:获取所述汉语语音的中文文本以及所述汉语训练语音的汉语训练文本。确定所述中文文本与所述汉语训练文本之间的误差率,若所述中文文本与所述汉语训练文本之间的误差率小于误差阈值,则停止训练,得到所述俄汉语音翻译模型。若所述中文文本与所述汉语训练文本之间的误差率大于或者等于所述误差阈值,则继续训练所述端到端模型。

在又一实施例中,所述汉语训练语音与对应的所述俄语训练语音采样频率相同。

在又一实施例中,所述根据所述目标梅尔谱图,得到所述待翻译的俄语语音对应的汉语语音,包括:通过声码器,将所述目标梅尔谱图重建,得到所述待翻译的俄语语音对应的汉语语音。

根据本公开实施例的第二方面,提供一种俄汉语音翻译装置,包括:获取单元,用于获取待翻译的俄语语音,并将所述待翻译的俄语语音转换为待翻译梅尔谱图。翻译单元,用于通过预先训练好的俄汉语音翻译模型,将所述待翻译梅尔谱图翻译成目标梅尔谱图。转换单元,用于根据所述目标梅尔谱图,得到所述待翻译的俄语语音对应的汉语语音。

在一实施例中,所述俄汉语音翻译模型包括:长短时记忆网络、局部注意力机制和双向长短时记忆网络。所述翻译单元采用下述方式通过预先训练好的俄汉语音翻译模型,将所述待翻译梅尔谱图翻译成目标梅尔谱图:将所述待翻译多帧梅尔谱图通过长短时记忆网络进行编码,得到待翻译中间向量。将所述待翻译向量基于局部注意力机制进行聚焦,确定所述待翻译中间向量的注意向量。通过双向长短时记忆网络,将确定注意向量后的所述待翻译中间向量进行解码,得到所述待翻译梅尔谱图翻译后的对应汉语的目标梅尔谱图。

在另一实施例中,所述俄汉语音翻译模型采用下述方式训练得到:获取训练语音集对应的多个训练梅尔谱图,所述训练语料集包括多条俄语训练语音,所述训练梅尔谱图与所述俄语训练语音相对应。获取汉语语音集对应的多个汉语梅尔谱图,所述汉语梅尔谱图与所述俄语训练语音的汉语训练语音相对应。将所述训练梅尔谱图输入至端到端模型中,并基于局部注意力机制,得到所述训练梅尔谱图对应的翻译梅尔谱图。基于所述翻译梅尔谱图和所述汉语梅尔谱图训练所述端到端模型,得到所述俄汉语音翻译模型。

在又一实施例中,所述俄汉语音翻译模型采用下述方式基于所述翻译梅尔谱图和所述汉语梅尔谱图训练所述端到端模型,得到所述俄汉语音翻译模型:根据所述翻译梅尔谱图,得到所述俄语训练语音对应翻译的汉语语音。获取所述目标梅尔谱图对应的汉语训练语音。基于所述汉语语音与所述汉语训练语音之间的对比结果,训练所述端到端模型,得到所述俄汉语音翻译模型。

在又一实施例中,在得到所述俄汉语音翻译模型之前,所述俄汉语音翻译模型的训练方式还包括:确定所述汉语语音的流畅度。

在又一实施例中,所述俄汉语音翻译模型采用下述方式基于所述汉语语音与所述汉语训练语音之间的对比结果,训练所述端到端模型,得到所述俄汉语音翻译模型:获取所述汉语语音的中文文本以及所述汉语训练语音的汉语训练文本。确定所述中文文本与所述汉语训练文本之间的误差率,若所述中文文本与所述汉语训练文本之间的误差率小于误差阈值,则停止训练,得到所述俄汉语音翻译模型。若所述中文文本与所述汉语训练文本之间的误差率大于或者等于所述误差阈值,则继续训练所述端到端模型。

在又一实施例中,所述汉语训练语音与对应的所述俄语训练语音采样频率相同。

在又一实施例中,所述转换单元采用下述方式根据所述目标梅尔谱图,得到所述待翻译的俄语语音对应的汉语语音:通过声码器,将所述目标梅尔谱图重建,得到所述待翻译的俄语语音对应的汉语语音。

根据本公开实施例的第三方面,提供一种俄汉语音翻译装置,包括:存储器,用于存储指令;以及处理器,用于调用存储器存储的指令执行上述任意一种实施例提供的俄汉语音翻译方法。

根据本公开实施例的第四方面,提供一种计算机可读存储介质,其中存储有指令,指令被处理器执行时,执行上述任意一种实施例提供的俄汉语音翻译方法。

本公开的实施例提供的技术方案可以包括以下有益效果:通过本公开提供的俄汉语音翻译方法,先将待翻译的俄语语音转换为待翻译梅尔谱图,使得到的待翻译梅尔谱图,能够准确表征待翻译的俄语语音的语音特征,进而采用训练好的俄汉语音翻译模型将其翻译成目标梅尔谱图,得到待翻译的俄语语音对应的汉语语音时,便可以降低准确率折损严重的问题,有助于提升翻译质量。且在翻译的过程中,是基于预先训练好的俄汉语音翻译模型进行翻译,进而有助于加快俄汉语音翻译速率,有利于提升对俄的信息处理能力。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种俄汉语音翻译方法的流程图。

图2是根据一示例性实施例示出的一种翻译流程的示意图。

图3是根据一示例性实施例示出的另一种俄汉语音翻译方法的流程图。

图4是根据一示例性实施例示出的一种框架示意图。

图5是根据一示例性实施例示出的另一种翻译流程的示意图。

图6是根据一示例性实施例示出的一种俄汉语音翻译装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种俄汉语音翻译方法的流程图,如图1所示,俄汉语音翻译方法包括以下步骤S11至步骤S13。

在步骤S11中,获取待翻译的俄语语音,并将待翻译的俄语语音转换为待翻译梅尔谱图。

在本公开实施例中,待翻译的俄语语音是需要进行翻译的俄语语音,可以从本地语音库或者云端中获取的。待翻译的俄语语音内容可以包括:日常对话、俄中两国外交、军事新闻、学术交流等,在本公开中不进行限定。

在实际应用中使用俄语时,俄语具有如下发音特性:元音出现较少,使用辅音较多,且大多数辅音是清、浊相对和软、硬相对,元音在非重音节中发生明显的弱化,音值有时含混不清。在使用俄语时,词重音在不同的词中可以落在不同的音节上,没有固定的位置,而当词发生词形变化时,重音可能移动位置。

因此,为提高翻译的准确度,使翻译后的汉语语音能够真实的反映出俄语语音所表达的内容,在进行翻译前,将待翻译的俄语语音转换为待翻译梅尔(梅尔)谱图。梅尔谱图是一种能够能反映语音特征、且得到的梅尔频率能够符合人耳听觉特性的频谱图。基于梅尔谱图中的各频率峰值,能够清晰的显示出而语音频率的共峰值以及音素之间的界限,进而将待翻译梅尔谱图使用俄汉语音翻译模型进行翻译时,俄汉语音翻译模型能够快速通过待翻译梅尔谱图中,明确待翻译的俄语语音中的词与词和句与句之间的界限关系,有助于节省分词识别时间,加快翻译速率。

在步骤S12中,通过预先训练好的俄汉语音翻译模型,将待翻译梅尔谱图翻译成目标梅尔谱图。

在本公开实施例中,将待翻译梅尔谱图作为俄汉语音翻译模型的输入,使待翻译梅尔谱图在俄汉语音翻译模型中进行俄汉翻译,得到翻译后目标梅尔谱图,并将该目标梅尔谱图作为俄汉语音翻译模型的输出进行输出。目标梅尔谱图可以表征为与待翻译的俄语语音对应的汉语语音的梅尔谱图。

在一例中,俄汉语音翻译模型是一种能够将表征俄语的梅尔谱图翻译成表征汉语的梅尔谱图或者将表征汉语的梅尔谱图翻译成表征俄语的梅尔谱图的模型,即,能够将表征俄语的梅尔谱图和表征汉语的梅尔谱图相互进行翻译的模型。在另一例中,俄汉语音翻译模型是一种仅能将表征俄语的梅尔谱图翻译成表征汉语的梅尔谱图的模型。

在步骤S13中,根据目标梅尔谱图,得到待翻译的俄语语音对应的汉语语音。

在本公开实施例中,目标梅尔谱图可以表征为与待翻译的俄语语音对应的汉语语音的梅尔谱图,进而根据得到的目标梅尔谱图,便可以明确转换成汉语的语音特征,从而便可以快速得到待翻译的俄语语音对应的汉语语音。

在一示例中,可以通过声码器将目标梅尔谱图转换成汉语语音。声码器是一种语音分析合成系统。在将目标梅尔谱图合成汉语语音的过程中,先利用线性预测对声道的响应进行建模,即,将得到的目标梅尔谱图基于线性预测进行重建。将重建后目标梅尔谱图的进行语音合成,得到合成的汉语语音。该汉语语音即为待翻译的俄语语音对应的汉语语音。

通过上述实施例,通过待翻译的俄语语音转换后的待翻译梅尔谱图,能够真实的反映出待翻译的俄语语音的发音特征,使俄汉语音翻译模型能够使用待翻译梅尔谱图进行翻译的同时,不会造成准确度的折损,进而有助于提高俄汉语音翻译模型在翻译该待翻译梅尔谱图的准确度,有利于提升最终得到的待翻译的俄语语音对应的汉语的语音质量。

在一实施例中,预先训练好的俄汉语音翻译模型可以由长短时记忆网络(LongShort-Term Memory,LSTM)、局部注意力机制和双向长短时记忆网络(Bi-directionalLong Short-Term Memory,Bi-LSTM)三部分组成。俄汉语音翻译模型的翻译流程可以如图2所示。采用该预先训练好的俄汉语音翻译模型进行翻译时,将待翻译多帧梅尔谱图输入至俄汉语音翻译模型后,由俄汉语音翻译模型中的若干层长短时记忆网络进行编码,将编码后的多帧梅尔谱图采用待翻译中间向量进行表示。将得到的待翻译中间向量基于局部注意力机制进行聚焦,通过设置窗口,将待翻译中间向量的编码注意力集中在窗口区间内,得到注意向量。其中,注意向量为通过局部注意力机制聚焦后确定的待翻译中间向量。在实际应用中,俄语中的同一词具有多种语法形式,且每种语法形式所表达的意义不同,进而采用局部注意力机制,有利于提高翻译准确度,使得到的翻译结果更优质。将输出的注意向量传送至双向长短时记忆网络中进行解码,能够基于当前注意向量与上下文之间的关系,提高翻译的语义准确度,进而使得到的目标梅尔谱图在转成汉语语音后,能够准确的表达出待翻译的俄语语音所表达的内容。

在一示例中,Bi-LSTM中,在训练俄汉语音翻译模型的过程中,采用的损失函数不同,即在给定正确输出的前提下俄汉语音翻译模型自学参数调整的方式,会产生不同程度的影响。

以下实施例将具体说明俄汉语音翻译模型的训练过程。

图3是根据一示例性实施例示出的一种训练俄汉语音翻译模型的方法的流程图,如图3所示,训练俄汉语音翻译模型的方法包括以下步骤S21至步骤S24。

在步骤S21中,获取训练语音集对应的多个训练梅尔谱图。

在本公开实施例中,在训练端到端模型,得到俄汉语音翻译模型之前,先将用于训练的语音集对应的多个训练梅尔谱图进行获取。将获取的多个训练梅尔谱图作为用于训练端到端模型,得到俄汉语音翻译模型的输入。其中,训练语音集中包括多条俄语训练语音,各训练梅尔谱图分别与各俄语训练语音相对应。在一例中,各训练梅尔谱图可以是各俄语训练语音基于频谱转换,通过梅尔尺度滤波器组得到的。

在步骤S22中,获取汉语语音集对应的多个汉语梅尔谱图,汉语梅尔谱图与俄语训练语音的汉语训练语音相对应。

在本公开实施例中,为便于验证训练结果的准确性,预先确定与训练语音集中各俄语训练语音对应的汉语训练语音,得到汉语语音集,进而将汉语语音集中各汉语训练语音对应的汉语梅尔谱图进行获取。

在步骤S23中,将训练梅尔谱图输入至端到端模型中,并基于局部注意力机制,得到训练梅尔谱图对应的翻译梅尔谱图。

在本公开实施例中,在训练端到端模型,得到俄汉语音翻译模型的过程中,将训练梅尔谱图作为输入,输入至端到端模型中,经过局部注意力机制的聚焦自行训练,从而将训练梅尔谱图对应的翻译梅尔谱图进行输出,得到训练梅尔谱图翻译后的翻译梅尔谱图。

其中,俄汉语音翻译模型采用端到端(end-to-end)模型的神经网络框架进行构建,并在端到端(end-to-end)模型的神经网络框架中加入局部注意力机制,以提高翻译的准确度。由于端到端模型的自适应能力强,因而在训练时,俄汉语音翻译模型中的各参数便可以根据输入的训练梅尔谱图自行学习,无需采用人工干预,进而有助于缩减人工预处理和后续处理的过程。且采用端到端模型构建的神经网络框架训练端到端模型,得到俄汉语音翻译模型,能够在训练的过程中给予更多的自动调节的空间,从而有助于增强模型的整体契合度。

进一步的,在俄语中,同一词可能出现多种不同的表达方式,且不同表达方式对应的含义不同,进而根据加入的局部注意力机制,基于局部注意力机制中的窗口,采用聚焦的形式加强词语词之间的上下文联系,从而能够有效解决俄语中一词多义的情况,以提高翻译的准确度。

在步骤S24中,基于翻译梅尔谱图和汉语梅尔谱图训练端到端模型,得到俄汉语音翻译模型。

在本公开实施例中,基于俄汉语音翻译模型输出的翻译梅尔谱图,和预先获取的俄语训练语音对应汉语训练语音的汉语梅尔谱图,确定俄汉语音翻译模型的训练程度,进而当训练结果达到指定要求时,完成俄汉语音翻译模型的训练,得到训练好的俄汉语音翻译模型。

在一实施例中,将翻译梅尔谱图与汉语梅尔谱进行特征序列对比,确定翻译梅尔谱图与汉语梅尔谱之间的余弦距离,若翻译梅尔谱图中第一数量的特征序列与汉语梅尔谱之间的余弦距离均大于余弦距离阈值,则表征翻译梅尔谱图与汉语梅尔谱高度相似,则可以确定俄汉语音翻译模型的翻译结果合格。在训练过程中,若多个翻译梅尔谱图与其对应的汉语梅尔谱之间的特征序列对比,各翻译梅尔谱图中第一数量的特征序列与其对应汉语梅尔谱之间的余弦距离均大于余弦距离阈值,则表征训练完成,得到训练好的俄汉语音翻译模型。

在另一实施例中,根据翻译梅尔谱图得到的俄语训练语音对应翻译的汉语语音与目标梅尔谱图对应的汉语训练语音之间的对比结果,得到俄汉语音翻译模型。

为确定俄汉语音翻译模型的训练情况,针对当前俄语训练语音对应的训练梅尔谱图,将训练梅尔谱图对应的翻译梅尔谱图经过声码器转换后,转换为可以播放的输出语音,得到俄语训练语音对应翻译的汉语语音。将当前训练梅尔谱图对应的汉语训练语音进行获取。将翻译梅尔谱图经过声码器转换后的汉语语音与汉语训练语音进行对比,确定二者之间的对比结果。在一例中,若根据对比结果,确定二者之间的相似度大于指定相似度阈值,则表征俄汉语音翻译模型的翻译结果准确度达到合格要求。若根据对比结果,确定二者之间的相似度小于或者等于指定相似度阈值,则表征俄汉语音翻译模型的翻译结果准确度未达到合格要求,仍需继续进行训练。在一例中,确定汉语语音与汉语训练语音之间的相似度,可以采用人工的方式进行判断,进而有助于快速确定二者之间是否相似。

在又一实施例中,还可以采用人工的是方式,确定俄汉语音翻译模型的训练情况。预先明确训练梅尔谱图对应训练俄语语音的中文含义,将得到俄语训练语音对应翻译的汉语语音进行播放,采用人工的方式,确定汉语语音与预先确定的中文含义之间的误差情况,确定在翻译的过程中受否存在错翻、漏翻或者少翻等。若出现误差情况的次数小于第一误差阈值,则表征俄汉语音翻译模型训练完成,得到训练好的俄汉语音翻译模型。若出现误差情况的次数大于或者等于第一误差阈值,这表征俄汉语音翻译模型训练未完成,仍需继续训练端到端模型。

在又一实施例中,为提高俄汉语音翻译模型的翻译质量,在训练端到端模型,得到俄汉语音翻译模型的过程中,还包括:确定汉语语音的流畅度,即,确定翻译梅尔谱图经过声码器转换后得到的汉语语音的流畅度。基于汉语语音在播放时的流畅度,可以在俄汉语音翻译模型在翻译的过程中,确定是否产生漏翻的现象。若汉语语音在播放的过程中未出现卡顿等情况,则表征在播放汉语语音的过程中汉语语音的流畅度满足流畅度需求,在翻译训练梅尔谱图时未产生漏翻的现象。若汉语语音在播放的过程中出现卡顿等情况,则表征在播放汉语语音的过程中汉语语音的流畅度不满足流畅度需求,在翻译训练梅尔谱图时产生漏翻的现象。

在又一实施例中,在训练端到端模型,得到俄汉语音翻译模型的过程中,将输出的汉语梅尔图谱转换成汉语语音后,确定汉语语音对应的中文文本。在一例中,可以基于语音识别引擎,将汉语语音进行识别,得到汉语语音对应的中文文本。获取汉语训练语音的汉语训练文本,进而根据获取汉的语语音的中文文本以及汉语训练语音的汉语训练文本之间的误差率,确定俄汉语音翻译模型的训练情况,进而有助于直观且清晰的明确在训练过程中,是否存在误翻、错翻、漏翻等现象。以汉语训练文本为基准,将中文文本与汉语训练文本进行对比,可以根据中文文本与汉语训练文本之间的翻译字数误差、翻译内容误差等误差情况,确定中文文本与汉语训练文本之间的误差率。若中文文本与汉语训练文本之间的误差率小于误差阈值,则表征俄汉语音翻译模型训练完成,可以停止训练,得到训练好的俄汉语音翻译模型。若中文文本与汉语训练文本之间的误差率大于或者等于误差阈值,则俄汉语音翻译模型训练未完成,仍需继续训练端到端模型。

在又一实施例中,用于训练的训练语音集和汉语语音集可以是根据预先构建的俄汉双语语料库中获取的。在俄汉双语语料库中,采集多条俄汉对照语音,并将俄语语音的文本及俄语对照的汉语语音的文本一并存储。在一例中,俄汉对照语音的内容可以是从中俄新闻文本中选取的,内容可以包括以下任意一种或者多种:中俄两国间交流、两国外交、各国武器装备更新、人员更新活动。在另一例中,涉及的词汇量可以包括常用词汇,专有名词以及特定用语。专有名词可以包括:人名、地名、组织机构。特定用语可以包括:军事用语:武器装备、军衔职称、活动。

在一示例中,在实际发音中,俄语的语速相比于汉语的语速较快,但由于俄语单词较长,且在同一句中涉及的俄语词汇数量较多,为便于训练俄汉语音翻译模型,将俄语训练语音的长度限定在第一指定时间长度内进行存储。例如:将俄语训练语音的长度限定在10秒内进行存储。中文文字发音较短,且在同一句中涉及的中文词汇数量较少,为保障与俄语训练语音之间的对照关系,便于训练俄汉语音翻译模型,且保证句子的完整性,将汉语训练语音的长度限定在第二指定时间长度内进行存储。例如:将汉语训练语音的长度限定在8秒内进行存储。

在另一示例中,为便于训练俄汉语音翻译模型,在存储俄语训练语音和对应的汉语训练语音时,将俄语训练语音和对应的汉语训练语音采用相同的采样频率进行采集。将俄语训练语音和对应的汉语训练语音采用相同的采样频率,有助于保证在各俄语训练语音转换后得到的训练梅尔谱图和各汉语训练语音转换后得到的汉语梅尔谱图的时域频率变化规律相同。使在训练俄汉语音翻译模型的过程中,俄汉语音翻译模型输出的翻译梅尔图谱的时域频率变化规律能够与汉语梅尔谱图的时域频率变化规律保持一致,进而有助于快速确定俄汉语音翻译模型的训练情况,从而快速完成俄汉语音翻译模型的收敛。在一例中,俄语训练语音和对应的汉语训练语音在进行采集时,采用的量化位数也相同。例如:量化位数可以采用16比特(bit),进而有助于计算机进行识别。

在一实施场景中,在训练俄汉语音翻译模型,使其能够将汉语转换成俄语时,可以基于上述实施例中任意一种构思进行训练。将汉语训练语音转换成的汉语梅尔图谱作为俄汉语音翻译模型的输入,将与汉语训练语音对应的俄语训练语音转换的训练梅尔图谱作为训练结果的对照梅尔图谱,基于俄汉语音翻译模型输出的俄语梅尔图谱与对照梅尔图谱,确定俄汉语音翻译模型的训练情况,完成汉语梅尔图谱翻译成对应俄语梅尔图谱的翻译训练。

在另一实施场景中,本公开还提供一种俄汉语音翻译原型系统。俄汉语音翻译原型系统的框架可以如图4所示的框架示意图。俄汉语音翻译原型系统中涉及梅尔谱图的语音信号特征表示、端到端语音翻译模型架构、注意力机制优化、以及声码器重建波形等内容,基于Tensorflow设计进行开发,进而将俄汉语音翻译模型理论进行综合应用。Tensorflow是一种人工智能学习系统,能够将复杂的数据结构传输至人工智能神经网中进行分析和处理过程,实现张量从流图的一端流动到另一端计算过程。在俄汉语音翻译原型系统中,可以包括模型训练流程,二是模型测试流程。

为实现系统功能设计,俄汉语音翻译原型系统框架主要包含三个模块,包括用于转换输入的梅尔谱图生成模块,用于训练构建模型的端到端模型模块,以及用于重建波形的声码器模块。其中,梅尔谱图生成模块包括语音信号分帧、加窗、傅里叶变换、梅尔滤波等处理过程,可以将输入的语音转化为梅尔谱图特征进行输出。声码器模块与梅尔谱图生成模块相反,将梅尔谱图特征输入,经过逆梅尔滤波器、转化为语音波形输出、Griffin-Lim算法、去加重过程,得到语音波形输出。模型训练模块包括LSTM编码模块、局部注意力机制、以及Bi-LSTM解码模块,用于训练俄汉语音翻译模型,并在俄汉语音翻译系统中保存该俄汉语音翻译模型。

在俄汉语音翻译模型的模型训练模块中进行训练时,将用于训练的俄语训练语音和与俄语训练语音对应的汉语训练语音先通过梅尔谱图生成模块生成梅尔谱图,作为俄汉语音翻译模型的输入,然后通过模型训练模块构建模型并保存。在俄汉语音翻译模型的模型测试模块中进行测试时,将用于测试的俄语测试语音通过梅尔谱图生成模块生成梅尔谱图,然后通过训练好的俄汉语音翻译模型进行预测输出得到翻译后的梅尔谱图,将翻译后的梅尔谱图使用声码器重建波形后,输出对应的汉语语音。

在另一实施场景中,使用俄汉语音翻译模型进行翻译的过程可以如图5所示,图5是根据一示例性实施例示出的一种翻译流程的示意图。在该俄汉语音翻译模型的LSTM编码模块中采用LSTM网络,在Bi-LSTM解码模块中采用了Bi-LSTM网络。将源语言语音的待翻译梅尔谱图作为俄汉语音翻译模型的输入,将待翻译梅尔谱图中的各帧参数输入至LSTM网络中进行编码,得到待翻译中间向量。将待翻译向量基于局部注意力机制进行聚焦,确定待翻译中间向量的注意向量。通过Bi-LSTM解码模块中的双向长短时记忆网络,将确定注意向量后的待翻译中间向量进行解码,输出目标梅尔谱图的各帧参数,得到待翻译梅尔谱图翻译后的对应汉语的目标梅尔谱图。

采用上述方式构建俄汉语音翻译系统的整体框架,在遵循系统设计和开发规范的基础上,各模块设计能够符合遵循高内聚、低耦合的设计要求,进而保证各模块内功能完整的基础上实现模块间数据传输过程数据结构简单的要求。且使用的俄汉语音翻译模型是以端到端模型构建的神经网络框架,进而有助于增强俄汉语音翻译系统自适应性。进一步的,俄汉语音翻译模型的输入参数,即输入的梅尔谱图是通过语音训练自学习获得,不需要适应不同的输入语料进行调整。在一例中,由于俄汉语音翻译系统涉及用户操作的过程较少,进而在实际应用中使用时,可以采用可交互式页面设计进行设计,简化操作过程,进而用户在进行使用时,无需一定具备基础知识,便可以便捷操作。

基于相同的构思,本公开实施例还提供一种俄汉语音翻译装置。

可以理解的是,本公开实施例提供的俄汉语音翻译装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤,本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本公开实施例的技术方案的范围。

图6是根据一示例性实施例示出的一种俄汉语音翻译装置框图。参照图6,该俄汉语音翻译装置100包括获取单元101,翻译单元102和转换单元103。

获取单元101,用于获取待翻译的俄语语音,并将待翻译的俄语语音转换为待翻译梅尔谱图。

翻译单元102,用于通过预先训练好的俄汉语音翻译模型,将待翻译梅尔谱图翻译成目标梅尔谱图。

转换单元103,用于根据目标梅尔谱图,得到待翻译的俄语语音对应的汉语语音。

在一实施例中,俄汉语音翻译模型包括:长短时记忆网络、局部注意力机制和双向长短时记忆网络。翻译单元102采用下述方式通过预先训练好的俄汉语音翻译模型,将待翻译梅尔谱图翻译成目标梅尔谱图:将待翻译多帧梅尔谱图通过长短时记忆网络进行编码,得到待翻译中间向量。将待翻译向量基于局部注意力机制进行聚焦,确定待翻译中间向量的注意向量。通过双向长短时记忆网络,将确定注意向量后的待翻译中间向量进行解码,得到待翻译梅尔谱图翻译后的对应汉语的目标梅尔谱图。

在另一实施例中,俄汉语音翻译模型采用下述方式训练得到:获取训练语音集对应的多个训练梅尔谱图,训练语料集包括多条俄语训练语音,训练梅尔谱图与俄语训练语音相对应。获取汉语语音集对应的多个汉语梅尔谱图,汉语梅尔谱图与俄语训练语音的汉语训练语音相对应。将训练梅尔谱图输入至端到端模型中,并基于局部注意力机制,得到训练梅尔谱图对应的翻译梅尔谱图。基于翻译梅尔谱图和汉语梅尔谱图训练端到端模型,得到俄汉语音翻译模型。

在又一实施例中,俄汉语音翻译模型采用下述方式基于翻译梅尔谱图和汉语梅尔谱图训练端到端模型,得到俄汉语音翻译模型:根据翻译梅尔谱图,得到俄语训练语音对应翻译的汉语语音。获取目标梅尔谱图对应的汉语训练语音。基于汉语语音与汉语训练语音之间的对比结果,训练端到端模型,得到俄汉语音翻译模型。

在又一实施例中,在得到俄汉语音翻译模型之前,俄汉语音翻译模型的训练方式还包括:确定汉语语音的流畅度。

在又一实施例中,俄汉语音翻译模型采用下述方式基于汉语语音与汉语训练语音之间的对比结果,训练端到端模型,得到俄汉语音翻译模型:获取汉语语音的中文文本以及汉语训练语音的汉语训练文本。确定中文文本与汉语训练文本之间的误差率,若中文文本与汉语训练文本之间的误差率小于误差阈值,则停止训练,得到俄汉语音翻译模型。若中文文本与汉语训练文本之间的误差率大于或者等于误差阈值,则继续训练端到端模型。

在又一实施例中,汉语训练语音与对应的俄语训练语音采样频率相同。

在又一实施例中,转换单元103采用下述方式根据目标梅尔谱图,得到待翻译的俄语语音对应的汉语语音:通过声码器,将目标梅尔谱图重建,得到待翻译的俄语语音对应的汉语语音。.

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

进一步的,在示例性实施例中,俄汉语音翻译装置可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。例如,俄汉语音翻译装置包括:存储器,用于存储指令;以及处理器,用于调用所述存储器存储的指令执行上述任意一种实施例提供的俄汉语音翻译方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由卷俄汉语音翻译装置的处理器执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

进一步可以理解的是,本公开中“多个”是指两个或两个以上,其它量词与之类似。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。

进一步可以理解的是,术语“第一”、“第二”等用于描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开,并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。

进一步可以理解的是,除非有特殊说明,“连接”包括两者之间不存在其他构件的直接连接,也包括两者之间存在其他元件的间接连接。

进一步可以理解的是,本公开实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号