首页> 中国专利> 一种规避机器翻译译文片段重复的方法

一种规避机器翻译译文片段重复的方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开一种规避机器翻译译文片段重复的方法，属于自然语言处理中的机器翻译领域，在机器翻译的贪婪算法解码过程中，利用译文重复片段检测机制，对重复的生成的目标词语的生成概率进行惩罚，随着重复片段的长度增加，依次对目标词生成概率进行对数级、线性级、指数级惩罚，从而达到规避机器翻译生成重复片段的目的，本发明阶梯惩罚、逐步加重，保证既不过多影响原有译文解码过程，也能有效降低重复片段惩罚的漏警率；本发明充分考虑了原文中存在重复片段的情况，允许译文的重复片段长度小于或等于原文重复片段的长度，因此最大程度上保证了原文和译文的一致性，即降低了本提案方法的虚警率。

著录项

公开/公告号CN113191165A

专利类型发明专利
公开/公告日2021-07-30

原文格式PDF
申请/专利权人南京新一代人工智能研究院有限公司;
展开▼

申请/专利号CN202110743012.3
发明设计人张学强;张丹;董晓飞;万怡方;曹峰;
展开▼

申请日2021-07-01
分类号G06F40/58(20200101);G06F40/44(20200101);G06F40/242(20200101);
代理机构32207 南京知识律师事务所;
代理人张苏沛
地址 210046 江苏省南京市栖霞区新港开发区兴智路6-3兴智科技园A-6F
入库时间 2023-06-19 12:02:28

说明书

技术领域

本发明涉及自然语言处理中的机器翻译领域，尤其涉及一种规避机器翻译译文片段重复的方法。

在机器翻译解码过程中，利用译文重复片段检测机制，对重复的生成的目标词语的生成概率进行惩罚。随着重复片段的长度增加，依次采用对目标词进行对数级、线性级、指数级等惩罚策略，从而达到规避机器翻译生成重复片段的目的。

背景技术

随着全球化趋势进一步发展和一带一路的提出，机器翻译成为不同语言种族群体相互交流通信面临的一个重要研究课题。然而当前学术界和工业界都发现，基于深度学习方法的机器翻译，尤其是基于Transformer模型的机器翻译模型容易生成重复译文片段，给用户带来极大的体验落差。重复类型如下两个实例，详情可参考链接

实例1：Rudolf Rudolf OUT LI Area Area Area #en3OF Area Area WhenPresident When When When President Safety BUT BUT BUT Types Types TypesScience Have Have Madame Madame Madame AND AND AND Have AND MAX AND RudolfRudolf Rudolf OUT LI Area Area Area When When When President Safety BUT BUTBUT Types Types Types Science is NOT Have Have Order Order Order ScienceScience Science Order Science Science Science Governments DiscussionSignificant#en581# Governments Governments Governments 61# Will Governments #en6181##en6181##en6181#Types Science Science NOT Have Have Order Order OrderScience Science Science Order Science #en632##en632##en632# Area Area AreaWhen When When #en3@@.

其中出现了“Have”、“When”、“AND”这样多次的无意义重复。

实例2：即使是美国也可能拥有最优秀的人才，你知道你说服我们，即使做得很好，因为美国的能力水平资源发光体，你知道的，所以这对for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，for，a乌克兰就业情况，但你也创造了下游供应商，他们反过来创新。

这次不仅没有翻译成很通顺的中文，而且出现了英文单词的大量重复，比如“for”。

近年来，端到端神经机器翻译因其简洁的设计理念、新颖的系统架构和良好的翻译性能而备受关注。尽管较之传统方法，端到端神经机器翻译能获得相媲美甚至更高质量的译文，但较传统方法而言，在模型鲁棒性和稳定性方面存在不足。当源语言句子中夹杂噪声时，易造成模型生成的译文中存在或长或短的重复片段。

不同于翻译中常见的错译、多译、漏译等问题，重复片段的错误更为明显和严重，不仅对翻译准确率造成极大影响，也给个体用户（在线翻译）甚至群体用户（机器同声传译）造成极差的用户体验。

针对上述问题，对于译文翻译质量的改善，现有技术中公开了申请号为：201910721252 .6，发明名称为：一种机器翻译译文的翻译方法、装置及存储介质的技术，包括接收待翻译的源语句；对所述源语句进行分词处理；获取所述分词中每一个单词的词性；根据词向量模型，将所述词性融入单词所对应的词向量中，获取融合后的词向量序列；将所述词向量序列输入至编码器解码器模型中，获得编解码结果；针对所述编解码结果，基于波束搜索评价函数进行结果评价，其中，所述波束搜索评价函数包括在基于长度对比的惩罚项和重复检测的惩罚项；然后根据所述评价结果获得译文。

上述技术主要是在波束搜索（Beam Search）中对于多个候选译文进行评价时采用的策略，局限性较大，不适用贪婪算法等领域，另外采用了长度惩罚和重复惩罚，两种惩罚因子作用于同一函数，会导致相互影响，及重复惩罚策略不能全面奏效。也就是说现有技术仍存在较多缺陷，本文即是在此背景下进行的研发。

发明内容

为了解决上述问题，本发明的目的是：提出了一种规避机器翻译译文片段重复的方法，在机器翻译的贪婪算法解码过程中，利用译文重复片段检测机制，对重复的生成的目标词语的生成概率进行惩罚。随着重复片段的长度增加，依次对目标词生成概率进行对数级、线性级、指数级惩罚，从而达到规避机器翻译生成重复片段的目的。

本发明所采用的的技术方案为：一种规避机器翻译译文片段重复的方法，包括以下步骤：

步骤1：数据处理：按照句子对的形式处理号双语平行语料，格式为（源语言句子，目标语言句子），即（si, ti）i=1,2,3,…,n，i表示语料中的第i对双语句对，n表双语句对的数量；

步骤2：编码阶段：采用BiLSTM对源语言句子序列进行编码，采用BiLSTM神经网络的优势是能够从正向、反向同时对源语言句子进行编码，保证捕获每个词的上下文语境信息，计算形式如下：

其中，

步骤3：解码阶段：利用步骤2得到的特征向量，进行解码：

其中，

步骤4：译文生成：

对目标词表计算生成概率：从第一时刻（i=1），计算词表中每个词的生成概率；

其中，

检测重复片段：译文中每生成一个新的目标语言词，进行重复检测，具体为：

设i时刻译文为：X

1）若X

2）若X

3）若X

4）若X

重复概率惩罚：依据重复长度对概率进行不同程度的惩罚。具体而言，随着重复片段的长度增加，依次对对目标词进行对数级、线性级、指数级惩罚，从而达到规避机器翻译生成重复片段的目的，具体为：

考虑原文重复的概率惩罚：与方法（3）中描述策略类似，但在译文生成过程中会考虑原文中存在的最大重复片段长度来惩罚重复词。

与现有技术相比，本发明的主要创新点及优点在于：

（1）动态检测、软性策略：本发明在目标译文的动态生成过程中，实时（每一时刻）检测译文中的重复片段的长度，并采取“软策略”进行惩罚，从而达到规避译文重复的问题；（软策略是指在原有过程中采用惩罚、鼓励、引导等方式对结果进行微调，而非一刀切的强制方式）；

（2）阶梯惩罚、逐步加重：当本提案检测到译文存在重复片段时，设置不同程度的阶梯惩罚，以保证既不过多影响原有译文解码过程，也能有效降低重复片段惩罚的漏警率；

（3）考虑原文，惩罚有度：本提案充分考虑了原文中存在重复片段的情况，允许译文的重复片段长度小于或等于原文重复片段的长度，因此最大程度上保证了原文和译文的一致性，即降低了本提案方法的虚警率；

（4）方法灵活，迁移性强：本提案虽然以机器翻译解码过程中的贪婪算法为例，当该方法适用于自然语言处理序列生成的所有技术，只需在序列逐词生成的原有过程中，加入重复检测+惩罚策略即可。

附图说明

图1为本发明的规避机器翻译译文片段重复的方法流程图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。

如图1所示，本实施例公开了一种规避机器翻译译文片段重复的方法，在机器翻译的贪婪算法解码过程中，利用译文重复片段检测机制，对重复的生成的目标词语的生成概率进行惩罚，随着重复片段的长度增加，依次对目标词生成概率进行对数级、线性级、指数级惩罚，从而达到规避机器翻译生成重复片段的目的，具体包括以下步骤：

步骤1：数据处理：按照句子对的形式处理好双语平行语料，所述形式为：源语言句子，目标语言句子，即（s

步骤2：编码阶段：采用BiLSTM对源语言句子序列进行编码，采用BiLSTM神经网络的优势是能够从正向、反向同时对源语言句子进行编码，保证捕获每个词的上下文语境信息；

步骤3：解码阶段：利用步骤2得到的特征向量，进行解码；

步骤4：生成译文：对目标词表计算生成概率、检测重复片段，并进行重复概率惩罚，从而达到规避机器翻译生成重复片段的目的。

所述步骤2的计算公式如下：

其中，

所述步骤3的解码公式如下：

其中，

所述步骤4中对目标词表计算生成概率：从第一时刻i=1，计算词表中每个词的生成概率；

其中，

进一步的，所述检测重复片段：译文中每生成一个新的目标语言词，进行重复检测，本实施例以源语言句子“我喜欢爬长城。”为例，逐一进行重复检测。重复片段的窗口大小设置为4，即单个词最多可在译文中重复4次。示例说明如下：

可以看出，正确译文在t=7时刻解码结束，生成完整且正确的译文。而重复译文-1在t=4时刻开始进行重复译文的生成，重复单词为“the”；重复译文-2在t=7时刻开始进行重复译文的生成，重复单词为“.”；重复译文-3在t=2时刻开始进行重复译文的生成，重复单词为“like”。

在t=2时刻，重复未检测到重复片段：

在t=3时刻，检测到候选译文-3中的重复片段“like like”，重复长度为2：

在t=4时刻，检测到候选译文-3中的重复片段“like like like”，重复长度为3：

在t=5时刻，检测到候选译文-1中的重复片段“the the”和候选译文-3中的重复片段“like like like like”，重复长度分别为2和4：

在t=6时刻，检测到候选译文-1中的重复片段“the the the”和候选译文-3中的重复片段“like like like like”，重复长度分别为3和4：

进一步的，所述重复概率惩罚：依据重复长度对概率进行不同程度的惩罚。具体而言，随着重复片段的长度增加，依次对对目标词进行对数级、线性级、指数级惩罚，从而达到规避机器翻译生成重复片段的目的。该步骤是本提案的关键创新之一，通过惩罚重复词的生成概率以达到规避机器翻译生成重复片段的目的。

重复片段长度为1-4的惩罚因子和惩罚概率是：

其中，Rlen

下表给出了正确译文、候选译文-1、候选译文-2、候选译文-3的概率惩罚因子、惩罚概率：

由上表可以看出：

（a）当重复片段长度为1时，视为译文未出现重复情况，此时惩罚因子为1，对概率不产生任何鼓励或惩罚；

（b）当重复片段长度为2时，视为译文轻微出现重复情况，此时惩罚因子为lg2 (≈0.3010)对概率进行了惩罚；

（c）当重复片段长度为3时，视为译文较为严重的出现重复情况，此时惩罚因子为1/30 (≈0.0333)对概率进行了较重惩罚；

（d）当重复片段长度为4时，视为译文出现了显著重复情况，此时惩罚因子为1/104(≈0.00001)对概率进行了严格惩罚；

（d）当重复片段长度超过4时，视为译文出现了重复错乱，此时惩罚因子为0，意味着将重复词概率置零，即不再生成重复词，从而达到截断重复的目的。

进一步的，所述重复概率惩罚为考虑原文重复的概率惩罚：与上述方法描述策略类似，但在译文生成过程中会考虑原文中存在的最大重复片段长度来惩罚重复词。该步骤是本提案的关键创新之一，通过惩罚重复词的生成概率以达到规避机器翻译生成重复片段的目的。下表给出了考虑原文重复的概率惩罚：

检测到原句中包含重复片段的长度m=3，此时允许译文中出现较原文重复词数量相同或更少的情况。因此对译文当前重复片段长度为n的惩罚策略为：

（a）当译文重复片段长度n小于等于原文最大重复片段m时，概率不做任何惩罚；

（b）当译文重复片段长度n大于原文最大重复片段m时，采用n-m作为当前重复片段长度，开始按照上述方法描述的策略进行概率惩罚。

虽然本发明创造已以较佳实施例公开如上，但实施例和附图并不是用来限定本发明，任何熟悉此技艺者，在不脱离本发明之精神和范围内，自当可作各种变化或润饰，但同样在本发明的保护范围之内。因此本发明的保护范围应当以本申请的权利要求保护范围所界定的为准。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种规避机器翻译译文片段重复的方法 [P] . 中国专利： CN113191165B . 2021.09.24
2. 一种规避机器翻译译文片段重复的方法 [P] . 中国专利： CN113191165A . 2021-07-30
3. pencicillin-binding protein, nucleic acid, antibody or antibody fragment, medicament, pharmaceutical composition, uses of at least one penicillin-binding protein or fragment or variant or fragment thereof, of at least one nucleic acid and of at least one antibody or antibody fragment, in vitro antibody detection methods directed against neisseria meningitidis infection from a penicillin-binding protein, nucleic acid, antibody or an antibody fragment, pharmaceutical composition of at least one penicillin-binding protein or fragment or variant or variant thereof, of at least one nucleic acid and at least one antibody directed against neisseria meningitidis infection from a biological sample of a mammal and in vitro diagnosis of neisseria miningitidis infection from a biological sample from a mammal and monoclonal antibody [P] . BRPI0610802A2 . 2016-11-16

机译：青霉素结合蛋白，核酸，抗体或抗体片段，药物，药物组合物，至少一种青霉素结合蛋白或其片段或变异体或片段，至少一种核酸和至少一种抗体或抗体片段的用途，针对脑膜炎奈瑟菌的青霉素结合蛋白，核酸，抗体或抗体片段感染的体外抗体检测方法，至少一种青霉素结合蛋白或其片段或变异体或变异体，至少一种核酸的药物组合物酸和至少一种针对哺乳动物生物样品中脑膜炎奈瑟氏菌感染的抗体以及来自哺乳动物生物样品中的矿业性奈瑟氏球菌感染的体外诊断和单克隆抗体
4. isolated polypeptide, fusion protein, nucleic acid sequence, expression vector or a virus, recombinant cell, method of producing a soluble ectodomain polypeptide or fusion protein or fragment thereof, pharmaceutical composition, use of a monoclonal antibody or polyclonal or antigen-binding fragment thereof, use of antibody or antigen-binding fragment, use of any of an isolated polypeptide, method of regulating cytokines, induction of t-cell expansion, promotion of cell immunity antigen specific t and promotion of cd4 + and / or cd8 + t cell activation in a subject, method for enhancing an immune response secondary to an antigen in a patient, method of using at least one of: an isolated polypeptide, method for treatment or prevention of an immune system related condition, method for treating or preventing an infectious disease a, method for diagnosing a disease in a subject, method of producing a soluble ectodomain polypeptide tmem25, vsig10, ly6g6f, or fusion protein or fragment thereo [P] . BR112013026199A2 . 2017-11-07

机译：分离的多肽，融合蛋白，核酸序列，表达载体或病毒，重组细胞，产生可溶性胞外域多肽或融合蛋白或其片段的方法，药物组合物，单克隆抗体或其多克隆或抗原结合片段的用途，使用抗体或抗原结合片段，使用任何分离的多肽，调节细胞因子的方法，诱导t细胞扩增，促进细胞免疫抗原特异性t并促进cd4 +和/或cd8 + t细胞活化受试者，在患者中增强继发于抗原的免疫应答的方法，使用以下至少一种的方法：分离的多肽，用于治疗或预防与免疫系统有关的病症的方法，用于治疗或预防传染病的方法，用于诊断受试者疾病的方法，产生可溶性胞外域多肽tmem25，vsig10，ly6g6f或其融合蛋白或片段的方法
5. methods for screening for a therapeutic agent, for suppressing the polynucleotide sequence, for treating a non-steroidal cancer, for screening for binding of an agent specifically to a polynucleotide, and for determining whether a patient is at risk for developing or having a non-steroidal cancer, pharmaceutical composition, uses of a therapeutic agent, an antisense molecule or a cell that expresses and / or contains the antisense molecule, at least one of the immunogenic membrane proteins, fragments, derivatives or homologues thereof or from a cell containing and / or expressing at least one of the immunogenic membrane proteins or fragments, derivatives or homologues thereof and an agent or antibody, agent, and kit for identifying a patient at risk of developing or have non-steroidal cancer [P] . BRPI0414446A . 2006-11-14

机译：筛选治疗剂，抑制多核苷酸序列，治疗非甾体类癌症，筛选试剂特异性结合多核苷酸的方法以及确定患者是否处于发展或患有非糖尿病风险的方法类固醇癌，药物组合物，表达和/或含有反义分子的治疗剂，反义分子或细胞，免疫原性膜蛋白，其片段，衍生物或同源物中至少一种或来自含有和/或含有细胞的细胞的用途或表达至少一种免疫原性膜蛋白或其片段，衍生物或同系物以及一种试剂或抗体，试剂和试剂盒，用于鉴定有发生或患有非甾体癌风险的患者