首页> 中国专利> 一种规避机器翻译译文片段重复的方法

一种规避机器翻译译文片段重复的方法

摘要

本发明公开一种规避机器翻译译文片段重复的方法,属于自然语言处理中的机器翻译领域,在机器翻译的贪婪算法解码过程中,利用译文重复片段检测机制,对重复的生成的目标词语的生成概率进行惩罚,随着重复片段的长度增加,依次对目标词生成概率进行对数级、线性级、指数级惩罚,从而达到规避机器翻译生成重复片段的目的,本发明阶梯惩罚、逐步加重,保证既不过多影响原有译文解码过程,也能有效降低重复片段惩罚的漏警率;本发明充分考虑了原文中存在重复片段的情况,允许译文的重复片段长度小于或等于原文重复片段的长度,因此最大程度上保证了原文和译文的一致性,即降低了本提案方法的虚警率。

著录项

  • 公开/公告号CN113191165A

    专利类型发明专利

  • 公开/公告日2021-07-30

    原文格式PDF

  • 申请/专利号CN202110743012.3

  • 申请日2021-07-01

  • 分类号G06F40/58(20200101);G06F40/44(20200101);G06F40/242(20200101);

  • 代理机构32207 南京知识律师事务所;

  • 代理人张苏沛

  • 地址 210046 江苏省南京市栖霞区新港开发区兴智路6-3兴智科技园A-6F

  • 入库时间 2023-06-19 12:02:28

说明书

技术领域

本发明涉及自然语言处理中的机器翻译领域,尤其涉及一种规避机器翻译译文片段重复的方法。

在机器翻译解码过程中,利用译文重复片段检测机制,对重复的生成的目标词语的生成概率进行惩罚。随着重复片段的长度增加,依次采用对目标词进行对数级、线性级、指数级等惩罚策略,从而达到规避机器翻译生成重复片段的目的。

背景技术

随着全球化趋势进一步发展和一带一路的提出,机器翻译成为不同语言种族群体相互交流通信面临的一个重要研究课题。然而当前学术界和工业界都发现,基于深度学习方法的机器翻译,尤其是基于Transformer模型的机器翻译模型容易生成重复译文片段,给用户带来极大的体验落差。重复类型如下两个实例,详情可参考链接

实例1:Rudolf Rudolf OUT LI Area Area Area #en3OF Area Area WhenPresident When When When President Safety BUT BUT BUT Types Types TypesScience Have Have Madame Madame Madame AND AND AND Have AND MAX AND RudolfRudolf Rudolf OUT LI Area Area Area When When When President Safety BUT BUTBUT Types Types Types Science is NOT Have Have Order Order Order ScienceScience Science Order Science Science Science Governments DiscussionSignificant#en581# Governments Governments Governments 61# Will Governments #en6181##en6181##en6181#Types Science Science NOT Have Have Order Order OrderScience Science Science Order Science #en632##en632##en632# Area Area AreaWhen When When #en3@@.

其中出现了“Have”、“When”、“AND”这样多次的无意义重复。

实例2:即使是美国也可能拥有最优秀的人才,你知道你说服我们,即使做得很好,因为美国的能力水平资源发光体,你知道的,所以这对for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,for,a乌克兰就业情况,但你也创造了下游供应商,他们反过来创新。

这次不仅没有翻译成很通顺的中文,而且出现了英文单词的大量重复,比如“for”。

近年来,端到端神经机器翻译因其简洁的设计理念、新颖的系统架构和良好的翻译性能而备受关注。尽管较之传统方法,端到端神经机器翻译能获得相媲美甚至更高质量的译文,但较传统方法而言,在模型鲁棒性和稳定性方面存在不足。当源语言句子中夹杂噪声时,易造成模型生成的译文中存在或长或短的重复片段。

不同于翻译中常见的错译、多译、漏译等问题,重复片段的错误更为明显和严重,不仅对翻译准确率造成极大影响,也给个体用户(在线翻译)甚至群体用户(机器同声传译)造成极差的用户体验。

针对上述问题,对于译文翻译质量的改善,现有技术中公开了申请号为:201910721252 .6,发明名称为:一种机器翻译译文的翻译方法、装置及存储介质的技术,包括接收待翻译的源语句;对所述源语句进行分词处理;获取所述分词中每一个单词的词性;根据词向量模型,将所述词性融入单词所对应的词向量中,获取融合后的词向量序列;将所述词向量序列输入至编码器解码器模型中,获得编解码结果;针对所述编解码结果,基于波束搜索评价函数进行结果评价,其中,所述波束搜索评价函数包括在基于长度对比的惩罚项和重复检测的惩罚项;然后根据所述评价结果获得译文。

上述技术主要是在波束搜索(Beam Search)中对于多个候选译文进行评价时采用的策略,局限性较大,不适用贪婪算法等领域,另外采用了长度惩罚和重复惩罚,两种惩罚因子作用于同一函数,会导致相互影响,及重复惩罚策略不能全面奏效。也就是说现有技术仍存在较多缺陷,本文即是在此背景下进行的研发。

发明内容

为了解决上述问题,本发明的目的是:提出了一种规避机器翻译译文片段重复的方法,在机器翻译的贪婪算法解码过程中,利用译文重复片段检测机制,对重复的生成的目标词语的生成概率进行惩罚。随着重复片段的长度增加,依次对目标词生成概率进行对数级、线性级、指数级惩罚,从而达到规避机器翻译生成重复片段的目的。

本发明所采用的的技术方案为:一种规避机器翻译译文片段重复的方法,包括以下步骤:

步骤1:数据处理:按照句子对的形式处理号双语平行语料,格式为(源语言句子,目标语言句子),即(si, ti)i=1,2,3,…,n,i表示语料中的第i对双语句对,n表双语句对的数量;

步骤2:编码阶段:采用BiLSTM对源语言句子序列进行编码,采用BiLSTM神经网络的优势是能够从正向、反向同时对源语言句子进行编码,保证捕获每个词的上下文语境信息,计算形式如下:

其中,

步骤3:解码阶段:利用步骤2得到的特征向量,进行解码:

其中,

步骤4:译文生成:

对目标词表计算生成概率:从第一时刻(i=1),计算词表中每个词的生成概率;

其中,

检测重复片段:译文中每生成一个新的目标语言词,进行重复检测,具体为:

设i时刻译文为:X

1)若X

2)若X

3)若X

4)若X

重复概率惩罚:依据重复长度对概率进行不同程度的惩罚。具体而言,随着重复片段的长度增加,依次对对目标词进行对数级、线性级、指数级惩罚,从而达到规避机器翻译生成重复片段的目的,具体为:

考虑原文重复的概率惩罚:与方法(3)中描述策略类似,但在译文生成过程中会考虑原文中存在的最大重复片段长度来惩罚重复词。

与现有技术相比,本发明的主要创新点及优点在于:

(1)动态检测、软性策略:本发明在目标译文的动态生成过程中,实时(每一时刻)检测译文中的重复片段的长度,并采取“软策略”进行惩罚,从而达到规避译文重复的问题;(软策略是指在原有过程中采用惩罚、鼓励、引导等方式对结果进行微调,而非一刀切的强制方式);

(2)阶梯惩罚、逐步加重:当本提案检测到译文存在重复片段时,设置不同程度的阶梯惩罚,以保证既不过多影响原有译文解码过程,也能有效降低重复片段惩罚的漏警率;

(3)考虑原文,惩罚有度:本提案充分考虑了原文中存在重复片段的情况,允许译文的重复片段长度小于或等于原文重复片段的长度,因此最大程度上保证了原文和译文的一致性,即降低了本提案方法的虚警率;

(4)方法灵活,迁移性强:本提案虽然以机器翻译解码过程中的贪婪算法为例,当该方法适用于自然语言处理序列生成的所有技术,只需在序列逐词生成的原有过程中,加入重复检测+惩罚策略即可。

附图说明

图1为本发明的规避机器翻译译文片段重复的方法流程图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。

如图1所示,本实施例公开了一种规避机器翻译译文片段重复的方法,在机器翻译的贪婪算法解码过程中,利用译文重复片段检测机制,对重复的生成的目标词语的生成概率进行惩罚,随着重复片段的长度增加,依次对目标词生成概率进行对数级、线性级、指数级惩罚,从而达到规避机器翻译生成重复片段的目的,具体包括以下步骤:

步骤1:数据处理:按照句子对的形式处理好双语平行语料,所述形式为:源语言句子,目标语言句子,即(s

步骤2:编码阶段:采用BiLSTM对源语言句子序列进行编码,采用BiLSTM神经网络的优势是能够从正向、反向同时对源语言句子进行编码,保证捕获每个词的上下文语境信息;

步骤3:解码阶段:利用步骤2得到的特征向量,进行解码;

步骤4:生成译文:对目标词表计算生成概率、检测重复片段,并进行重复概率惩罚,从而达到规避机器翻译生成重复片段的目的。

所述步骤2的计算公式如下:

其中,

所述步骤3的解码公式如下:

其中,

所述步骤4中对目标词表计算生成概率:从第一时刻i=1,计算词表中每个词的生成概率;

其中,

进一步的,所述检测重复片段:译文中每生成一个新的目标语言词,进行重复检测,本实施例以源语言句子“我 喜欢 爬 长城 。”为例,逐一进行重复检测。重复片段的窗口大小设置为4,即单个词最多可在译文中重复4次。示例说明如下:

可以看出,正确译文在t=7时刻解码结束,生成完整且正确的译文。而重复译文-1在t=4时刻开始进行重复译文的生成,重复单词为“the”;重复译文-2在t=7时刻开始进行重复译文的生成,重复单词为“.”;重复译文-3在t=2时刻开始进行重复译文的生成,重复单词为“like”。

在t=2时刻,重复未检测到重复片段:

在t=3时刻,检测到候选译文-3中的重复片段“like like”,重复长度为2:

在t=4时刻,检测到候选译文-3中的重复片段“like like like”,重复长度为3:

在t=5时刻,检测到候选译文-1中的重复片段“the the”和候选译文-3中的重复片段“like like like like”,重复长度分别为2和4:

在t=6时刻,检测到候选译文-1中的重复片段“the the the”和候选译文-3中的重复片段“like like like like”,重复长度分别为3和4:

进一步的,所述重复概率惩罚:依据重复长度对概率进行不同程度的惩罚。具体而言,随着重复片段的长度增加,依次对对目标词进行对数级、线性级、指数级惩罚,从而达到规避机器翻译生成重复片段的目的。该步骤是本提案的关键创新之一,通过惩罚重复词的生成概率以达到规避机器翻译生成重复片段的目的。

重复片段长度为1-4的惩罚因子和惩罚概率是:

其中,Rlen

下表给出了正确译文、候选译文-1、候选译文-2、候选译文-3的概率惩罚因子、惩罚概率:

由上表可以看出:

(a)当重复片段长度为1时,视为译文未出现重复情况,此时惩罚因子为1,对概率不产生任何鼓励或惩罚;

(b)当重复片段长度为2时,视为译文轻微出现重复情况,此时惩罚因子为lg2 (≈0.3010)对概率进行了惩罚;

(c)当重复片段长度为3时,视为译文较为严重的出现重复情况,此时惩罚因子为1/30 (≈0.0333)对概率进行了较重惩罚;

(d)当重复片段长度为4时,视为译文出现了显著重复情况,此时惩罚因子为1/104(≈0.00001)对概率进行了严格惩罚;

(d)当重复片段长度超过4时,视为译文出现了重复错乱,此时惩罚因子为0,意味着将重复词概率置零,即不再生成重复词,从而达到截断重复的目的。

进一步的,所述重复概率惩罚为考虑原文重复的概率惩罚:与上述方法描述策略类似,但在译文生成过程中会考虑原文中存在的最大重复片段长度来惩罚重复词。该步骤是本提案的关键创新之一,通过惩罚重复词的生成概率以达到规避机器翻译生成重复片段的目的。下表给出了考虑原文重复的概率惩罚:

检测到原句中包含重复片段的长度m=3,此时允许译文中出现较原文重复词数量相同或更少的情况。因此对译文当前重复片段长度为n的惩罚策略为:

(a)当译文重复片段长度n小于等于原文最大重复片段m时,概率不做任何惩罚;

(b)当译文重复片段长度n大于原文最大重复片段m时,采用n-m作为当前重复片段长度,开始按照上述方法描述的策略进行概率惩罚。

虽然本发明创造已以较佳实施例公开如上,但实施例和附图并不是用来限定本发明,任何熟悉此技艺者,在不脱离本发明之精神和范围内,自当可作各种变化或润饰,但同样在本发明的保护范围之内。因此本发明的保护范围应当以本申请的权利要求保护范围所界定的为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号