首页> 中国专利> 融合EMD最小化双语词典的汉-越无监督神经机器翻译方法

融合EMD最小化双语词典的汉-越无监督神经机器翻译方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及融合EMD最小化双语词典的汉‑越无监督神经机器翻译方法，属于机器翻译技术领域。本发明包括步骤：语料收集；使用网络爬虫爬取汉语和越南语单语句子；首先分别训练汉语和越南语的单语词嵌入，通过最小化词嵌入分布的EMD训练得到汉越双语词典；再将该词典作为种子词典训练得到汉越双语词嵌入；最后再将双语词嵌入应用到共享编码器的无监督机器翻译模型中构建融合EMD最小化双语词典的汉‑越无监督神经机器翻译方法。本发明方法能够有效提升汉越无监督神经机器翻译的性能。

著录项

公开/公告号CN111753557B

专利类型发明专利
公开/公告日2022.12.20

原文格式PDF
申请/专利权人昆明理工大学;
展开▼

申请/专利号CN202010096013.9
发明设计人余正涛;薛明亚;高盛祥;赖华;翟家欣;朱恩昌;陈玮;
展开▼

申请日2020.02.17
分类号G06F40/58(2020.01);G06F40/289(2020.01);G06F40/284(2020.01);G06F40/242(2020.01);G06F40/247(2020.01);G06F16/951(2019.01);
代理机构昆明人从众知识产权代理有限公司 53204;
代理人代转嫚
地址 650093 云南省昆明市五华区学府路253号（昆明理工大学）
入库时间 2023-01-09 21:32:12

法律信息

法律状态公告日

法律状态信息

法律状态
2022-12-20

授权

发明专利权授予

说明书

技术领域

本发明涉及融合EMD(Earth Mover’s Distance)最小化双语词典的汉-越无监督神经机器翻译方法，属于机器翻译技术领域。

背景技术

神经机器翻译是近几年提出的机器翻译方法，并且神经机器翻译质量已经在多个语言对上超过统计机器翻译成为主流的翻译方法。然而神经机器翻译需要大规模的平行语料才能有较好的效果，当训练数据不足时，会导致翻译质量不佳。汉语和越南语之间的平行语料稀少且不容易获取，所以汉-越机器翻译是典型的低资源语言机器翻译。但是汉语和越南语有大量的单语语料，本文探索只利用单语语料的汉-越无监督神经机器翻译，这不仅对推动两国交流合作有着非常重要的作用，对于低资源语言的机器翻译的研究也具有非常重要的理论和应用价值。

目前在无监督机器翻译的研究方法主要有基于对抗学习的无监督机器翻译和基于共享编码器的无监督机器翻译(共享空间)。Lample等人提出将两种不同的单语语料库句子映射到同一空间的思想，通过学习从这两种语言重建共享特征空间，仅利用单语语料实现无监督神经机器翻译。Artetxe等人对模型进行修改，先预训练无监督的双语词嵌入，采用共享编码器和分别解码的方式提出了仅仅使用单语语料的无监督神经机器翻译。Yang等人提出权重共享的无监督机器翻译模型相较于共享编码器模型提高了每种语言的自身的特点和内部特征以此提高翻译质量，Lample等人结合神经机器翻译和基于短语的统计机器翻译效果可以得到进一步提升无监督神经机器翻译的效果。Lample等人提出跨语言模型预训练用于初始化查找表提升预训练的跨语言词嵌入的质量，对无监督机器翻译模型的性能有显著提高。他们从相近语言的单语语料中利用同源词作为初始跨语言信息或者数字对齐的方法，然后扩展学习实现无监督神经机器翻译。汉越语言差异性较大，汉越之间没有可以利用的同源词，所以利用语言同源词的方法在汉越语言对上不可行，而Artetxe等人共享编码器无监督神经机器翻译是在无监督的双语词向量的基础上实现的，符合语言对差异性较大的特点。所以本发明选择在Artetxe等人工作上进行延伸，但是利用语言之间阿拉伯数字学习双语词嵌入的质量是有限的，所以本发明的想法是提升无监督双语词嵌入质量来提升汉越无监督神经机器翻译质量。

在只使用汉语和越南语单语语料的无监督机器翻译中，要直接实现机器翻译较难但是获取双语词典相对较容易，所以本发明考虑从汉越单语语料中先训练汉越双语词典，然后利用汉越词典作为种子词指导训练较高质量的双语词嵌入，来提高汉越无监督神经机器翻译质量。Zhang等人提出利用语言的词向量空间分布的相似性，使用EMD最小化的方法训练双语词典，整个过程只使用单语语料的无监督训练方式，且质量可以和有监督的方式相媲美，符合汉越语言的差异性较大特点。所以本文提出融合EMD最小化双语词典的汉越无监督神经机器翻译。

本文的方法是首先将汉语和越南语单语的词嵌入视为两个概率分布，通过最小化汉越词嵌入之间EMD距离训练获得汉越双语词典，再将汉越双语词典作为种子词典利用自学习的方法训练汉越双语词嵌入，在共享编码编码器模型上实现汉越无监督神经机器翻译。

发明内容

本发明提供了融合EMD最小化双语词典的汉-越无监督神经机器翻译方法，以用于低资源语言的无监督翻译系统，提高了汉越神经机器无监督神经机器翻译的性能。

本发明的技术方案是：融合EMD最小化双语词典的汉-越无监督神经机器翻译方法，具体步骤如下：

Step1、语料收集：使用网络爬虫爬取汉语和越南语单语语料；单语语料主要来自于中文和越南单语新闻网站；

Step2、语料预处理：在步骤Step1的基础上，对汉语和越南语单语句子分词和词性标记，用分词和词性标注工具进行汉语和越南语单语语料的分词处理和词性标注，利用词向量训练工具获得汉越单语词嵌入，得到单语词向量；训练分别得到的汉越单语的词向量，映射到向量空间中如图2所示，两种语言的单语词向量空间表现出近似的同态性，这意味着存在线性映射能够近似地连接这两个空间；

Step3、基于EMD最小化的无监督双语词典：在步骤Step2的基础上，根据汉语和越南语单语词向量，利用基于EMD最小化的方法训练无监督的汉越双语词典；

作为本发明的优选方案，所述步骤Step3的具体步骤为：

Step3、用汉语词向量分布与越南语词向量分布之间的EMD最小化方法，将词向量视为概率分布,将分布之间的距离作为词汇表级别的准则，以不使用任何种子词典的无监督方式训练找到汉越词向量分布之间的EMD最小化，获得汉越双语词典。

将图3中的圆点视为土堆，方块视为坑洞，它们的大小代表土堆的体积和坑洞的容积，或者说相应的权重。在图3的示例中，所有的权重都相等。在这个设定下，希望用最小的整体代价来移动土堆填满坑洞，而代价是由移动土堆的距离和体积的乘积衡量的。可以想见，图3(b)中的箭头即代表了这个示例下的最优移动方案，而这个方案正好可以视为词汇翻译的结果。从微观看，由于

s.t.W

其中，V

为了能够更好地发挥EMD处理一词多译现象的能力，本文提出将EMD引入双语词向量的训练过程中。在训练的目标函数中，EMD作为其中一项以正则的形式参与训练，使得训练得到的双语词向量能够更好地捕捉一词多译现象。它的效果通过实验得到了印证。

对抗学习的方法也可以放在这个框架下看待，因为对抗学习隐式地优化了Jensen-Shannon divergence。但是对于词汇翻译的任务来说，可能有其他更好的分布距离供选择。由于EMD也是分布之间距离的一种度量，它对词汇翻译任务非常适合，所以考虑使用EMD作为词汇表级别的准则来指导线性映射的学习，即寻找一个映射 G，使得源语言经过映射后的词向量分布与目标语言的词向量分布之间的EMD最小化，如图4所示。使用数学公式可以表示成如下的形式，

其中p

Step4、得到汉越双语词嵌入：在步骤Step2和Step3的基础上，将基于EMD最小化的无监督双语词典作为种子词典利用自学习模型指导双语词嵌入的学习；生成汉越双语词嵌入；

词嵌入映射：假设语言汉语和越南语的词嵌入矩阵分别为X和Y，

对矩阵X和Y进行标准化和中心化，并将W设置为正交矩阵后，上述求解欧几里得距离的问题相当于最大化点积：

其中，Tr表示矩阵的迹运算.可以求解得到最优解为W*＝UV

词典自学习：映射后的源语言词的词向量与目标语言词的词向量在同一个空间.根据最近邻检索的方法，为每个源语言词分配一个距离最近的目标语言词，将对齐的词对添加到词典中，再次进行迭代，直到收敛.

以图5为例，一开始词典中对齐的词对为(马

训练完后用集束搜索(beam search)进行翻译，束的大小需权衡翻译的时间以及搜索的准确性来确定。

融合基于EMD最小化训练的无监督双语词典，是将无监督获得的词典作为种子词典来提升词典自学习的效果进而提升双语词向量的质量。

Step5、在步骤Step4的基础上，将双语词向量应用在共享编码器的无监督神经机器翻译模型上，训练得到融合EMD最小化双语词典的汉-越无监督神经机器翻译模型。

本发明提出的方法是在Artetxe等人共享编码器的基础上融合基于EMD最小化的无监督双语词典，比原模型具有更强的挖掘汉越和越南语单语语料中的跨语言信息的能力。模型结构如图6所示，使用的模型遵循Bahdanau等人提出的具有注意机制的标准的编码器和解码器。由一个共享编码器和两个解码器组成，两个解码器分别对应源语言和目标语言。编码器端为双层双向循环神经网络(BiGRU)，解码器端为双层循环神经网络(UniGRU)。关于注意机制，本文使用Luong等人提出的全局注意方法和一般对齐函数。在编码器端，使用预训练的汉越双语词典和双语词向量，接受输入序列并生成与语言无关的表征。而解码器端的词向量会随着训练不断更新，通过两个解码器进行训练和翻译。

对于汉语(L1)中的每个句子，模型交替训练两个步骤：去噪，它优化了用共享编码器对句子的噪声编码进行编码的概率，并用L1解码器重建它，并进行动态反向翻译，它以推理模式翻译句子(用共享编码器对其进行编码并用越南语(L2)解码器解码)然后用共享编码器优化编码该翻译语句的概率，并用L1解码器恢复原始句子。训练在L1和L2中的句子之间交替进行，后者采用类似的步骤。

双重结构：虽然NMT系统通常是针对特定的翻译方向而构建的(如汉语—>越南语或越南语—>汉语)，但本文利用机器翻译的双重性质同时处理两个方向(如汉语＜—>越南语)。

共享编码器：类似于Ha等人、Lee等人和Johnson等人，本文的系统是由两种语言共享的一个编码器。即汉语和越南语使用同一个编码器进行编码。该共享编码器旨在将两种语言表示成与语言无关表示，然后每个解码器应解码成与其对应的语言。

预训练固定的双语词嵌入：虽然大多数神经机器翻译系统随机初始化其词向量并在训练期间更新它们，但在编码器中使用预先训练的跨语言词向量，这些词向量在训练过程中保持不变。编码器具有与语言无关的单词级表示，并且它只需要学习如何组合它们来构建较大短语的表示。

在Artetxe等人在实验中证明在系统中加入去噪和回译有助于提升翻译质量，本发明使用的是带有去噪和回译的共享编码器系统。

对汉语(L1)中的每个句子，该系统都通过两个步骤进行训练，去噪：如图7(a) 它优化了用共享编码器对句子的噪声编码进行编码的概率，并用L1解码器重建它；回译：在推理模式(inference mode)下翻译该句子(使用共享编码器编码该句子，如图 7(b)使用越南语(L2)解码器进行解码)，然后利用共享编码器优化对译文句子进行编码和使用L1解码器恢复源句子的概率。交替执行这两个步骤对L1和L2进行训练，对 L2的训练步骤和L1类似如图7(c)和(d)。神经机器翻译系统通常用平行语料库进行训练，由于只有单语语料库，因此此类监督式训练方法在本文的场景中行不通。但是，使用图6的模型架构，能够结合去噪和回译两种方法用无监督的方式训练整个系统：

去噪：由于使用了共享编码器，并利用了机器翻译的双重结构，本文的系统可以直接训练来重构输入句子。具体来说，系统使用共享编码器对给定语言的输入句子进行编码，然后使用该语言的解码器重构源句子。鉴于在共享编码器中使用了预训练的跨语言词向量，该编码器学习将两种语言的嵌入合称为语言独立的表征，每个解码器应该学习将这类表征解码成对应的语言。在推理模式下，本文仅用目标语言的解码器替代源语言的解码器，这样系统就可以利用编码器生成的语言独立表征来生成输入文本的译文。

本文在输入句中引入随机噪声。这个想法是利用相同的自动编码器去噪原理，系统经过训练可以重建损坏的输入句子的原始版本。为此，通过在连续单词之间进行随机交换来改变输入句子的单词顺序。对于N个元素的序列，进行这种N/2个随机交换。这样，该系统需要学习该语言的内部结构以恢复正确的词序。同时，通过阻止系统过分依赖输入序列的词序，可以更好地解释跨语言的实际词序差异。

回译：尽管采用了去噪策略，但上述训练程序仍然是一项复制任务，其中包含一些合成变更，最重要的是，每次都涉及一种语言，而不考虑在两种语言之间进行翻译的最终目标。为了在真正的翻译环境中训练本文的系统而不违反仅使用单语语料库的约束，在系统中加入Sennrich等人提出的回译方法。具体地说，给定一种语言的输入句子，系统使用贪心解码在推断模式下将其翻译成另一种语言(即利用共享编码器和另一种语言的解码器)。这样，可以获得了伪平行句子对，并训练系统从该合成翻译中预测原始句子。

需要注意的是，与使用独立模型一次反向翻译整个语料库的标准反向翻译相反，利用所提出的体系结构的双重结构，使用正在训练的模型即时反向翻译每个小批量句子。这样，随着训练的进行和模型的改进，它将通过反向翻译产生更好的合成句子对，这将有助于在随后的迭代中进一步改进模型。

因为汉越语言差异性大，没有同源词，根据汉越语言差异性特点，本发明引入词向量分布之间EMD最小化的方法从汉越单语语料中学习汉越双语词典，提出融合 EMD最小化双语词典的汉-越无监督神经机器翻译方法，提升很越无监督神经机器翻译的性能。

本发明的有益效果是：

本发明的是实现汉越差异性较大语言的无监督神经机器翻译系统，提高了共享编码器模型无监督神经机器翻译模型获取差异性较大语言的跨语言信息的能力，进而提升汉越无监督的神经机器翻译质量。实现了将无监督从包含同源词的相近语种拓展到了差异性较大的汉越语言任务上并且提升了共享编码器的无监督神经机器翻译模型的性能。

附图说明

图1是本发明提出的基于短语的汉-越伪平行句对生成方法的流程图；

图2是本发明的汉语和越南语的单语词向量空间；

图3是本发明的Hubness问题图；

图4是本发明的Earth mover′s distance最小化学习图；

图5是本发明的使用数字对齐进行词映射过程的示意图；

图6是本发明的融合EMD最小化双语词典的汉越无监督NMT模型；

图7是本发明的融合EMD最小化双语词典汉越无监督NMT模型训练的4个过程图。

具体实施方式

实施例1：如图1-7所示，融合EMD最小化双语词典的汉-越无监督神经机器翻译方法，Step1、首先获取平行语料：从互联网上爬取的汉语单语语料5800万句，越南语单语语料3000万句。

Step2、语料预处理；在步骤Step1的基础上，对汉语和越南语单语句子分词和词性标记，训练得到单语词向量；对越南语使用undertheseanlp越南语分词工具对越南语进行分词和词性标注，使用jieba分词工具对中文进行分词和词性标注。使用word2vec训练汉越和越南语的单语词向量。汉语和越南语分别都训练300维的词向量。 300维的词向量是使用skip-gram模型训练的。用于加入词典之后训练双语词向量。

训练分别得到的汉越单语的词向量，映射到向量空间中如图2所示，两种语言的单语词向量空间表现出近似的同态性，这意味着存在线性映射能够近似地连接这两个空间。

Step3、基于EMD最小化的无监督双语词典；在步骤Step2的基础上，根据汉越和越南语单语词向量，利用基于EMD最小化的方法训练无监督的汉越双语词典。

进一步地，所述步骤Step3的具体步骤为：

Step3、用汉语词向量分布与越南语词向量分布之间的EMD最小化方法；将词向量视为概率分布,将分布之间的距离作为词汇表级别的准则；以不使用任何种子词典的无监督方式训练找到汉越词向量分布之间的EMD最小化；获得汉越双语词典；

使用Zhang等人提出的方法训练双语词典，汉语和越南语分别使用word2vec训练50维的词向量。50维词向量是使用默认超参数训练的CBOW框架训练的，对词出现的频率限制为不小于1000名词，实验结果如表1所示。

表1基于EMD最小化的汉越双语词典生成数量表

Step4、得到汉越双语词嵌入；在步骤Step2和Step3的基础上，将基于EMD最小化的无监督双语词典作为种子词典利用自学习模型指导双语词嵌入的学习；生成汉越双语词嵌入；

步骤Step4中，进行词嵌入映射：假设语言汉语和越南语的词嵌入矩阵分别为X 和Y，

对矩阵X和Y进行标准化和中心化，并将W设置为正交矩阵后，上述求解欧几里得距离的问题相当于最大化点积：

其中，Tr表示矩阵的迹运算.可以求解得到最优解为W*＝UV

词典自学习：映射后的源语言词的词向量与目标语言词的词向量在同一个空间.根据最近邻检索的方法，为每个源语言词分配一个距离最近的目标语言词，将对齐的词对添加到词典中，再次进行迭代，直到收敛。

进一步地，步骤Step5中：

实验主要分为以下五个部分：无监督基线模型在汉-越上的翻译、融合EMD最小化双语词典的UNMT、在本文方法模型基础上再分别加入1万和10万平行语料、直接使用1万和10万的平行语料在GNMT和Transform上的有监督模型训练。

无监督模型训练：仅使用单语语料训练翻译系统，第1条基准实验应用基准模型训练汉越无监督翻译模型。第2条是本文的方法，在基准实验实验上融合EMD最小化的双语词典汉越UNMT。

半监督模型训练：大多数情况下，研究的语种常常会有少量的平行语料，可以使用这些平行语料来提升本模型的性能，但它的语料规模不足以直接训练完整的传统NMT系统。所以除了单语语料库之外，本文还加入了少量的平行语料。在本文提出的方法基础上又使用10,000和100,000个平行句对进行实验。

监督模型训练：用上述半监督实验中加入的10,000和100,000个平行句对训练传统的有监督神经机器翻译模型，用来对比半监督实验。

表2不同方法汉越机器翻译实验对比结果

从表2实验结果第1行和第2行对比中可以看出，本文通过在无监督模型基础上融合无监督的双语词典训练模型，较基线系统有约2.5个BLEU值的提升，说明本文的模型能从单语语料中捕捉到更多跨语言信息，提升双语词向量的质量，进一步提升翻译质量。半监督系统，从第3行在该系统上加入1万的平行语料BLEU汉-越达到了10.02个BLEU值，越-汉达到了13.91个BLEU值，对比第5，6，7，8行之后不难看出在低资源语言对中，本文提出的方法具有较好的效果，在只有1万句对平行语料的情况，本文的系统近乎达到了，用10万平行语料直接训练模型的效果。从第4行和第8行的对比中可以看出，加入10万平行句对的时候汉-越和越-汉两个方向均超过Transform模型。

表3不同方法汉越无监督机器翻译实例分析

从表3实验译文结果来看，虽然模型还存在学习偏差导致的翻译不准确问题，但是该文方法的译文较基线系统译文质量明显有所提升。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 融合EMD最小化双语词典的汉-越无监督神经机器翻译方法 [P] . 中国专利： CN111753557A . 2020-10-09
2. 融入双语词典的无监督汉-越神经机器翻译方法 [P] . 中国专利： CN112507732A . 2021-03-16
3. Method of creating bilingual dictionary and co-occurrence dictionary for machine translation system [P] . 日本专利： JP2840258B2 . 1998-12-24

机译：用于机器翻译系统的双语词典和共现词典的创建方法
4. Bilingual dictionary creation device, bilingual dictionary creation method and program [P] . 日本专利： JP6656894B2 . 2020-03-04

机译：双语词典创建装置，双语词典创建方法和程序
5. Bilingual dictionary creation device, bilingual dictionary creation method and program [P] . 日本专利： JP6599188B2 . 2019-10-30

机译：双语词典创建装置，双语词典创建方法和程序