技术领域
本发明涉及一种基于低频词表示增强的汉越神经机器翻译的方法,属于自然语言处理技术领域。
背景技术
词表示增强方法的核心是如何更准确的学习到更准确的词表示形式,其难点是如何表示低频词。一般情况下,关于词表示增强的方法大致有2种:(1)基于外部知识融入的方法。该方法通过融入先验知识,从而使单词具有更丰富的意思以达到增强词表示的目的;(2)基于内部知识增强的方法。该方法通过单语数据重新学习词的表示形式,使词的表示形式包含更丰富的翻译信息,从而使得词的表示更加准确。这2种方法都能在一定程度上增强词的表示形式,让增强后词语的意思更加贴合句子的含义,但并没有针对低频词表示增强的方法,因此不能解决低频词翻译不佳的问题。
发明内容
本发明提供了一种基于低频词表示增强的汉越神经机器翻译的方法,通过在Transformer翻译模型中引入语言模型与低频词词典来缓解低频词在神经机器翻译中表示不佳的问题。
本发明的技术方案是:一种基于低频词表示增强的汉越神经机器翻译的方法,包括如下:
Step1、收集汉越双语语料,并将收集到的语料进行预处理;
Step2、通过语言模型学习每个词的概率分布;
Step3、构建汉-越低频词词典;
Step4、利用Step3构建的汉-越低频词词典判断出翻译模型输入中的低频词,并利用Step2概率分布更新原有低频词的表征,从而得到翻译模型输入的新表征形式;
Step5、在Step4所得的表征形式的基础上重新训练Transformer翻译模型。
作为本发明的进一步方案,所述步骤Step1的具体步骤为:
Step1.1、通过将公开IWLST英语-越南语双语平行语料,经过语言学专家将英语译文为汉语,得到汉语-越南语平行语料;
Step1.2、对语料进行了清洗和分词处理,最终获得127,481对汉越双语平行数据;
Step1.3、使用结巴分词工具对中文语句进行分词,处理越南语使用tokenizer切开标点。
作为本发明的进一步方案,所述步骤Step2的具体步骤为:
Step2.1、对于词典中任何词w,概率分布为:
P(w)=(P
满足:
Step2.2、语言模型来计算P(w)和V之前所有词的条件概率,对于一个句子中第t个词x
P
作为本发明的进一步方案,所述步骤Step3的具体步骤为:
Step3.1、分别统计汉语与越南语词频;
Step3.2、根据词频分布规律来定义低频词,即采用最大值法确定词的等级,即把词出现的次数由高到低排列,其等级就是它的词序值k,构建词序值为k的低频词词典d
Step3.3、构建低频词词典D
作为本发明的进一步方案,所述步骤Step4的具体步骤为:
Step4.1、利用构建的低频词词典D
Step4.2、若为Y,用语言模型所训练出的P(x
Step4.3、用所得的新的源端序列X’与词典V的词嵌入矩阵E相乘得到翻译模型的输入:
input=X'E (5)。
作为本发明的进一步方案,所述步骤Step5还包括:
Step5.1、最终经过翻译模型Transformer得到翻译结果:
output=Transformer(input,Y) (6)。
本发明的有益效果是:
1、本发明在Transformer模型中引入语言模型和低频词词典,能有效缓解低频词在神经机器翻译中表示不佳的问题。
2、本发明可以在经典Transformer模型和不区分词频的Transformer+LM模型上进一步提升机器翻译模型的性能。
3、本发明实验结果表明,本发明提出的一种低频词表示增强的汉越神经机器翻译方法相对于基线模型分别在汉-越和越-汉两个低资源翻译任务上的BLEU4得分提升了8.58%和6.06%。
附图说明
图1为本发明中的流程图;
图2为本发明的翻译模型结构图;
图3为本发明K类低频词词典对汉-越模型的影响示意图;
图4为本发明K类低频词词典对越-汉模型的影响示意图。
具体实施方式
为了更详细的描述本发明和便于本领域人员的理解,下面结合附图以及实施例对本发明做进一步的描述,本部分的实施例用于解释说明本发明,便于理解的目的,不以此来限制本发明。
实施例1:如图1-4所示,一种基于低频词表示增强的汉越神经机器翻译的方法,包括如下:
Step1、收集汉越双语语料,并将收集到的语料进行预处理;
Step1.1、通过将公开IWLST英语-越南语双语平行语料,经过语言学专家将英语译文为汉语,得到汉语-越南语平行语料;
Step1.2、对语料进行了清洗和分词处理,最终获得127,481对汉越双语平行数据;
Step1.3、使用结巴分词工具对中文语句进行分词,处理越南语使用tokenizer切开标点。
Step2、通过语言模型学习每个词的概率分布;
语言模型利用单语数据上下文信息来学习低频词的概率分布,即对于一个给定的源端与目标端句子对,通过语言模型得到每个词的概率分布;
语言模型的目的是为了获取每个低频词在词表大小为|V|词典中的概率分布,对于任何低频词w,概率分布为:
P(w)=(P
满足:
低频词w的概率分布P(w)可以用多种方法计算,本发明利用预先训练的6层Transformer decoder作为语言模型来计算P(w)和V之前所有词的条件概率,对于一个句子中第t个x
P
其中LM(w
Step3、构建汉-越低频词词典;
作为本发明的进一步方案,所述步骤Step3的具体步骤为:
Step3.1、分别统计汉语与越南语词频;
Step3.2、根据词频分布规律来定义低频词,即采用最大值法确定词的等级,即把词出现的次数由高到低排列,其等级就是它的词序值k,构建词序值为k的低频词词典d
Step3.3、构建低频词词典D
具体的,通过统计的方式分别构建汉语和越南语低频词词典。以汉语和越南语训练集为目标选取低频词,词序值等于k的低频词词典词定义为词序值k类低频词词典,词序值k小于等于K的低频词词典定义为K类低频词词典。根据每个词的词序值k(k取1到10)分别构建汉语和越南语词序值k类低频词词典和K类低频词词典。且分别统计出低频词词典的词典覆盖率,词典覆盖率为低频词词典大小与总词典大小的比值,总词典由训练集统计得出。
汉语词典词表大小为47356,训练集词语总数为2275526。词序值k类低频词分别有18496,6656,3787,2508,1812,1397,1067,832,719,593个词语。越南语典词表大小为22732,训练集词语总数为3189350。词序值k类低频词分别有9428,3188,1667,1006,718,514,393,340,188,223个词语。
Step4、利用Step3构建的汉-越低频词词典判断出翻译模型输入中的低频词,并利用Step2概率分布更新原有低频词的表征,从而得到翻译模型输入的新表征形式;
作为本发明的进一步方案,所述步骤Step4的具体步骤为:
Step4.1、利用构建的低频词词典D
Step4.2、若为Y,用语言模型所训练出的P(x
Step4.3、用所得的新的源端序列X’与词典V的词嵌入矩阵E相乘得到翻译模型的输入:
input=X'E (5)。
Step5、在Step4所得的表征形式的基础上重新训练Transformer翻译模型。最终经过翻译模型Transformer得到翻译结果:
output=Transformer(input,Y) (6)。
为更好的训练模型和验证模型的有效性,分别从汉越双语平行数据中随机抽取规模大小均为2,000对的汉越双语平行数据作为测试集和验证集,剩余的作为训练集,其中具体数据信息如表1所示:
表1数据大小及数据集划分
在汉语-越南语翻译任务中,采用Transformer Decoder作为汉语语言模型。汉语语言模型的训练集和验证集来源于翻译模型中的汉语语料,规模分别为127,481和2,000条汉语单语数据;在越南语-汉语翻译任务中,语言模型结构与汉语-越南语翻译任务中模型结构相同,越南语语言模型的训练集和验证集来源于翻译模型中的越南语单语语料,规模分别为127,481和2,000条越南语单语数据。
低频词在汉越低资源神经机器翻译中表现不佳,为了区分低频词和其他词语,针对低频词使用本发明方法进行低频词表示增强,构建低频词词典。汉语-越南语词序值k类低频词词典示例如表2所示:
表2汉语-越南语词序值k类低频词
本发明中,汉语词典词表大小为47,356,越南语词词表大小为22,732,batch最大Maxtoken为2048,句子最大长度为128,最大epoch为100轮,dropout设置为0.1,词嵌入维数为512维,隐藏层维度为512维。所有的模型通过Adam优化器来训练,且初始学习率10-4。
在语言模块训练完成之后,保存模型最优的训练参数,并在训练翻译模型时,语言模型的参数固定使用其最优训练参数。本发明使用汉语-越南语平行数据分别在汉语-越南语和越南语-汉语两个任务上对本发明提出的方法进行验证。本发明采用自助重采样的方法(重采样1000次)在显著性水平p<0.05下,在测试集上使用BLEU4值作为评测指标。
本发明采用了以下两种模型作为基线模型。一是经典Transformer模型(Transformer):使用Transformer_base模型在汉语-越南语和越南语-汉语两个翻译任务进行实验。二是在Transformer基础上,加入语言模型(Transformer+LM),使用语言模型训练结果随机替换翻译模型的输入,替换概率为γ,γ=0.15(γ值为文献[2]中所使用的最优设置)在汉语-越南语和越南语-汉语两个翻译任务上进行实验。
为了验证本发明方法的有效性,在实验中对比了两个基线模型,分别是经典的Transformer模型和现有技术中所使用的Transformer+LM模型(语料规模都为127,481对汉语-越南语平行数据)。本发明分别在汉语-越南语、越南语-汉语两个方向的翻译任务上进行实验,实验结果为每个翻译模型BLEU4得分,如表3所示。
表3汉语-越南语、越南语-汉语实验结果
从上表中可以看出,在汉语-越南语与越南语-汉语两个方向的翻译任务上,Transformer+LM模型较经典的Transformer模型分别提升了0.87和0.59个BLEU4值;本发明方法相较于Transformer+LM模型分别提升了0.84和0.68个BLEU4值。根据上述结果,本发明方法在汉语-越南语和越南语-汉语翻译任务上对比于Transformer模型和Transformer+LM模型,都有比较好的提升,证明本发明中所提出的基于低频词表示增强的方法,在汉语-越南语和越南语-汉语翻译任务上是有效的。从实验结果中分析,Transformer+LM模型优于经典的Transformer模型,由于Transformer+LM模型通过语言模型随机引入了词上下文信息,使随机引入词获取到更丰富的信息,证明Transformer+LM模型中引入词上下文信息的有效性。本发明方法相较于Transformer+LM模型在翻译性能上也有较大的提升,在本发明方法中考虑到低频词的信息,只针对低频词进行上下文的概率估计,提高翻译性能,而不区分低频词和非低频词导致性能下降。从实验结果可以看出,本发明方法能够缓解低频词翻译不佳这一问题,在汉语-越南语和越南语-汉语两个翻译任务上有明显的优势。
为了分析低频词出现频率对本发明方法的影响,如图1所示,本发明方法在汉语-越南语和越南语-汉语两个翻译任务上,按照出现频率小于等于K(K=1,2,...,10)的词分别进行模型性能测试。结果如图3,4所示。
从图3和图4中可以看出,在汉-越和越-汉翻译任务上,随着K值的增大,整体趋势先上升后下降,在K值分别取5和6时,即低频词设定为在训练集中出现频率小于等于5和6时(分别占词表大小的70.25%和70.66%),BLEU4值取得最高值;K值为0时为经典Transformer模型结果,当K值取1,2,...,10时,模型性能皆优于经典Transformer模型;在上升过程,当K值等于3时,本发明方法模型性能超过Transformer+LM模型;在下降过程中,K值分别取9和10时,Transformer+LM模型性能略优于本发明方法。
如图3所示,当K值取0时(经典Transformer模型),Transformer+LM模型优于经典Transformer模型,由于Transformer+LM模型中引入了随机词的上下文信息;当K值小于等于5时,模型效果稳步上升,K类低频词词典中词语出现次数较少,低频词在翻译模型中不能得到更好的表示,用低频词的上下文信息替代低频词表示,从而丰富了低频词的表示信息,使低频词拥有更加丰富的上下文语义信息,使得模型稳步上升。当K值大于5时,即低频词词典中加入出现频率大于5的词语,由于新加入的词本身可以得到比较好的训练,且训练出的词表示优于语言模型所提供增强后的表示形式。因此,低频词字典新加入的词语,并不能达到优化翻译性能的效果。所以在K值大于5时,翻译效果会不断下降。
表4汉-越翻译实例分析
表5越-汉翻译实例分析
分析表4可以看出,本发明对低频词有较好的翻译效果,在汉语-越南语翻译例子中,包含低频词“先决条件”,其在汉语训练数据集中出现次数为5次,本发明方法译文为
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
机译: 一种基于计算机的基于认知或娱乐的训练活动的增强系统来改善神经反馈训练的方法
机译: 一种处理基于聚酯的增强织物的方法。 (通过Google翻译进行机器翻译,没有法律约束力)
机译: 一种基于绿叶中的植被获取具有增强的饲料价值的饲料的方法(通过Google Translate进行机器翻译,没有法律约束力)