首页> 中国专利> 一种融合翻译记忆和短语翻译模型的统计机器翻译方法

一种融合翻译记忆和短语翻译模型的统计机器翻译方法

摘要

本发明公开了一种融合翻译记忆和短语翻译模型的统计机器翻译方法,其包括:步骤1:利用训练集得到双语短语切分句对;步骤2:根据所得到的双语短语切分句对获得翻译记忆中相应的翻译记忆短语对,并抽取翻译记忆短语对的相关特征;步骤3:融合短语翻译模型和所抽取的翻译记忆短语对的相关特征最终获得当前待翻译句子的目标翻译结果。其是一种在传统短语翻译模型的基础上充分且恰当地挖掘翻译记忆提供的信息以提高统计机器翻译译文质量的方法。

著录项

  • 公开/公告号CN103235775A

    专利类型发明专利

  • 公开/公告日2013-08-07

    原文格式PDF

  • 申请/专利权人 中国科学院自动化研究所;

    申请/专利号CN201310148826.8

  • 发明设计人 汪昆;宗成庆;苏克毅;

    申请日2013-04-25

  • 分类号G06F17/28;G06F17/27;

  • 代理机构中科专利商标代理有限责任公司;

  • 代理人宋焰琴

  • 地址 100190 北京市海淀区中关村东路95号

  • 入库时间 2024-02-19 19:24:31

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-06-29

    授权

    授权

  • 2013-09-04

    实质审查的生效 IPC(主分类):G06F17/28 申请日:20130425

    实质审查的生效

  • 2013-08-07

    公开

    公开

说明书

技术领域

本发明涉及自然语言处理技术领域,尤其涉及一种融合翻译记忆和 基于短语的翻译模型的统计机器翻译方法。

背景技术

统计机器翻译是一种从双语平行语料库中自动学习翻译规则,并有 效利用这些翻译规则对待翻译语句进行自动翻译的技术。统计机器翻译 主要包括基于词的模型、基于短语的模型和基于句法树结构的翻译模 型。其中,基于短语的翻译模型和基于句法树结构的机器翻译模型是当 前机器翻译的主流方法。

经过二十多年的发展,统计机器翻译取得了长足的进步,翻译质量 在不断提高。在某些特殊的语言对之间(例如:英语和阿拉伯语),统 计机器翻译生成的译文已经达到了人们可以接受的范围。此外,在某些 限定领域,例如专利翻译和产品说明书翻译,统计机器翻译已经投入实 际应用。与此同时,许多商业公司陆续推出了基于统计的在线机器翻译 服务,例如,Google Translate,Microsoft Translator和百度在线翻译等等。 无论是在学术界还是工业界,统计机器翻译正在如火如荼地快速发展。 但是,由于参数量和计算复杂度等问题,统计机器翻译模型一般只考虑 局部信息,并不考虑长距离的依赖。因此它的远距离调序效果并不好, 翻译结果还无法达到专业翻译的水平,很难满足完全商业化的需要。特 别是某些专业领域,例如,法律、航天等,对译文质量要求非常高,目 前的机器翻译水平还不能满足这一需求。

尽管统计机器翻译的研究十分火热,然而,基于翻译记忆 (Translation Memory,简称TM)的计算机辅助翻译软件却独霸着专业 翻译市场,统计机器翻译几乎难觅身影。由于专业领域的范围相对狭窄, 翻译资料都存在不同程度的重复。使用翻译记忆的目的就是为了消除重 复劳动,提升专业翻译人员的工作效率。有学者曾经对800多名翻译工 作者进行调研发现【参见“Lagoudaki,2006.Transltion memories survery 2006:user’s perceptions around tm use,In Proceedings of the ASLIB  International Conference Translating and the Computer28,pages,1-29.”】, 82.5%的翻译人员会使用翻译记忆软件辅助翻译工作。甚至许多国际组 织和公司都采用翻译记忆系统处理多语言文档和资料。从国际著名翻译 记忆软件提供商Trados的主页上可以看到,欧盟、国际货币基金组织、 大众汽车、IBM和微软等国际组织和企业都是Trados的客户。但是,翻 译记忆软件给出的参考翻译是与待翻译句子最相似句子的翻译,并不是 待翻译句子的直接翻译,需要人工对其进行修改。因此,翻译记忆软件 只能作为专业翻译的辅助翻译工具,并不能单独作为一个自动的翻译系 统。

由于机器翻译和翻译记忆的应用环境不一样,二者都独立发展了很 多年。直到最近几年,随着机器翻译质量的不断上升,研究者开始关注 如何结合机器翻译和翻译记忆的优点。对于计算机辅助翻译来说,如果 能够利用机器翻译系统代替或者减少翻译记忆软件中人工修改的工作, 将会使得翻译记忆软件更加高效,翻译效率也会大大提高。对于机器翻 译来说,如果能够利用翻译记忆给出的参考翻译,帮助机器翻译系统改 善系统输出,将会大大提升机器翻译的质量,推动机器翻译在专业翻译 领域的应用。因此,研究如何充分且恰当地融合机器翻译和翻译记忆对 于提升机器翻译质量,减少翻译记忆系统的人工修改工作量有着重要的 意义,这是一个富有挑战但非常有意义的任务。

发明内容

针对如何有效融合翻译记忆和统计机器翻译模型的难题,本发明的 目的是提出一种融合翻译记忆和短语翻译模型的方法,使得在短语翻译 模型解码过程中,充分且恰当地挖掘翻译记忆提供的信息,从而进一步 提高当前统计机器翻译的最佳性能,减少人工辅助翻译的工作量。

为了实现所述目的,本发明提供一种融合翻译记忆和短语翻译模型 的统计机器翻译方法,其包括:

步骤1:利用训练集得到双语短语切分句对;

步骤2:根据所得到的双语短语切分句对获得翻译记忆中相应的翻 译记忆短语对,并抽取翻译记忆短语对的相关特征;

步骤3、融合短语翻译模型和所抽取的翻译记忆短语对的相关特征 最终获得当前待翻译句子的目标翻译结果。

本发明还公开了一种融合翻译记忆和短语翻译模型的统计机器翻 译系统,其包括:

短语切分模块,其利用训练集得到双语短语切分句对;

短语对特征获取模块,其根据所得到的双语短语切分句对获得翻译 记忆中相应的翻译记忆短语对,并抽取翻译记忆短语对的相关特征;

融合模块,其用于融合短语翻译模型和所抽取的翻译记忆短语对的 相关特征最终获得当前待翻译句子的目标翻译结果。

本发明的积极效果:本发明在短语翻译模型解码过程中,深入挖掘 翻译记忆提供的信息,指导解码器进行解码,大大提高了翻译系统的翻 译质量。在计算机领域的汉英翻译记忆库上的实验结果表明,当模糊匹 配系数高于0.4时,本发明可以充分结合翻译记忆和短语翻译模型的优 点,显著地提高翻译质量。与翻译记忆相比,利用本发明的模型三,翻 译结果的BLEU值提高了16.34个百分点,TER值下降了17.25个百分点。 这说明对于翻译记忆,本发明能够进一步减少人工后编辑的工作量,加 快工作效率。与短语翻译模型相比,利用本发明的模型三,翻译结果的 BLEU值提高了3.48个百分点,TER值下降了2.62个百分点。这说明本发 明有效地改善了机器翻译系统的翻译质量。以上实验结果充分证明了本 发明的有效性和广泛适用性。

附图说明

图1是本发明中融合翻译记忆和短语翻译模型的流程框图;

图2是本发明中融合模型一使用的特征样例;

图3是本发明中融合模型二使用的特征样例;

图4是本发明中融合模型三使用的特征样例。

具体实施方式

下面结合附图对本发明作具体说明。应该指出,所描述的实例仅仅 视为说明的目的,而不是对本发明的限制。

本发明所有代码实现都是用C++编程语言完成,开发平台是 Ubuntu Linux8.04。由于所写程序没有用到任何与平台相关的代码, 因此所述的系统实现也可以运行于Windows操作系统上。

本发明的基本思想是在短语翻译模型的基础上,充分恰当地挖掘翻 译记忆的信息,提出了一种融合翻译记忆和短语翻译模型的翻译方法, 以提高统计机器翻译的译文质量。

图1示出了本发明提出的融合翻译记忆和短语翻译模型的翻译方法 流程图。如图1所示,该方法包括:

步骤1.对双语句子对进行自动分词、自动词对齐,即图1中的自动 分词和自动词对齐。

对双语句子对中的源语言和目标语言句子进行自动分词,得到源语 言端和目标语言端的分词结果。如果源语言或目标语言中不包含汉语, 则不需要进行分词。如果源语言或目标语言中包含汉语,则需要用对汉 语进行分词。对汉语进行分词的方法有很多种。本发明优选实施例中选 用词法分析工具Urheen对汉语进行分词,该Urheen词法分析工具可以在 以下网址免费下载:

http://www.openpr.org.cn/index.php/NLP-Toolkit-for-Natural-Language-Processing/

在得到所述的源语言端和目标语言端的分词结果之后,需要对双语 句子对自动进行词对齐。所述自动进行词对齐的方法有多种,在本发明 优选实施例中使用GIZA++工具包对汉-英句子对进行词对齐,得到汉- 英自动词对齐结果。所述GIZA++是一个常用的开源词对齐工具。 GIZA++可以在以下网址免费下载:http://fjoch.com/GIZA++.html。在使 用GIZA++时要选择某个启发式策略来得到对称的词对齐结果,本发明 优选实施例中选择了取交集(intersection)的策略,因为该启发式策略 能够得到准确率比较高的词对齐。

步骤1的目的是得到双语训练语料的词对齐结果。例如,对于双语 句子对“我是一个学生”和“I am a student”。经过中文分词以后得到以 下结果“我是一个学生”和“I am a student”。然后进行自动词对齐, 自动词对齐是将双语句子中互为翻译的词对应起来,例如,根据自动词 对齐结果,我们可以知道“我”与“I”是对齐的,“学生”和“student” 是对齐的等等。

步骤2.在训练集上进行交叉翻译,获取训练集的双语短语切分对, 所述双语短语切分对包括训练集中每个句子被切分成的源语言短语序 列和其对应的翻译目标短语序列。具体包括:

(1):随机将双语训练集为20份;

(2)取其中的19份作为短语翻译系统的训练语料,利用开源工具 包Moses,训练一个基于短语的翻译模型(将在随后介绍);

上述基于短语的翻译模型的训练步骤(即图1中的短语翻译模型训 练)具体如下:

基于短语的翻译模型已经比较成熟,本发明优选实施例中采用著名 的开源系统Moses作为短语翻译模型的获取方式,即本发明优选实施例 中利用著名的开源系统Moses从所述双语训练集中获取短语翻译模型中 的翻译模型特征。Moses可以在以下网址免费下载 http://www.statmt.org/moses/。在短语翻译模型中,本发明优选实施例中 使用了以下常用特征:

(1)短语翻译特征:双向的短语翻译概率、双向的词汇化概率、 以及一个短语惩罚概率。

(2)调序模型特征:

本发明优选实施例中使用了两个调序模型:基于距离的短语重排序 模型【参见“Franz Josef Och and Hermann Ney,2002.Discriminative  training and maximum entropy models for statistical machine translation.In  Proceedings of the40th Annual Meeting of the Association for  Computational Linguistics(ACL),pages295-302.”】和词汇化的短语重排序 模型【参见“Christoph Tillmann,2004.A unigram orientation model for  statistical machine translation.In Proceedings of HLT-NAACL2004,pages 101-104.”】。

(3)语言模型特征:

本发明优选实施例中利用SRILM工具包【参见“Andreas Stolcke, 2002.SRILM-an extensible language modeling toolkit.In Proceedings of the  International Conference on Spoken Language Processing,pages311-318.”】 在目标语言端的训练语料上,使用修正的Kneser-Ney平滑方法【参见 “Stanley F.Chen and Joshua Goodman,1998.An empirical study of  smoothing techniques for language modeling.Technical Report TR-10-98, Harvard University Center for Research in Computing Technology.”】,训练 一个5元语言模型;SRILM工具包可以在以下网址免费下载:

http://www-speech.sri.com/projects/srilm/download.html

(4)控制目标翻译长度的长度惩罚特征。

在获取上述翻译模型特征以后,使用最小错误率参数训练方法 MERT【参见“Franz Josef Och,2003.Minimum error rate training in  statistical machine translation.In Proceedings ofthe41st Annual Meeting of  the Association for Computational Linguistics,pages160-167.”】在整个开 发集上进行参数训练,获取上述翻译模型特征的特征权重,所述开发集 就是用来训练特征权重的翻译样例,其与双语训练集为不同的语料集。

(3):使用上一步中训练好的短语翻译模型中的翻译模型特征和特 征权重,对剩余的那份语料进行强迫解码(Forced Decoding)【参见 “Andreas Zollmann,Ashish Venugopal,Franz Josef Och and Jay Ponte,2008. A systematic comparison of phrase-based hierarchical and syntax-augmented  statistical MT.In Proceedings of the22nd International Conference on  Computational Linguistics(Coling2008),pages1145-1152.”】,即可获得该 份训练语料的双语短语切分句对;

(4):重复上述步骤,以同样的方法分别获得另外19份训练语料的 双语短语切分句对,最终可获得训练集中的所有双语短语切分对。

上述步骤2的目的是尽量穷尽训练集所有源语言句子的短语对切 分,进而在短语翻译解码过程中使用。

步骤3.根据训练集的双语短语对切分,通过短语匹配找到翻译记 忆中对应的短语对,并抽取翻译记忆相关的特征,这些特征根据后面介 绍的三种模型得到。

根据训练集的双语短语对切分,对比翻译记忆给出的最相似句对, 进行短语匹配,其过程如下:

(1)对比训练集中待翻译的源语言句子s和翻译记忆给出的最相似 源语言句子tm_s,根据它们之间的编辑操作,找到源语言短语在最相 似源语言句子tm_s中的对应源语言短语

(2)根据翻译记忆中源语言句子tm_s和目标语言翻译句子tm_t之间 的词对齐信息,找到源语言短语的对应目标语言翻译短语

其中,编辑操作是指将源语言句子s变为最相似源语言句子tm_s所 进行的插入、删除和替换操作。例如,将“我是学生”变为“我不是学 生”,仅需要一次插入操作(插入一个“不”字);而将“我不是学生” 变为“我是学生”,仅需要一次删除操作(删除“不”字)。

获取源语言短语和它对应的目标语言翻译短语后,抽 取翻译记忆相关的特征。这些特征将在随后详细介绍。

步骤4.设计融合翻译记忆和短语翻译模型的整合式统计机器翻译 模型框架,并训练所述短语翻译模型和所述整合式统计机器模型,并调 节它们之间的权重α。具体如下:

与标准的基于短语的翻译模型相比,融合翻译记忆的和短语翻译模 型的整合式统计机器翻译模型可以利用翻译记忆库中更多的信息。因 此,本发明将翻译问题重新定义为:

t^=argmaxtP(t|s,[tm_s,tm_t,tm_f,s_a,tm_a])---(1)

上式中s是待翻译的源语言句子;t是某一个目标语言翻译候选(不 考虑插入,但是允许删除。即允许源语言短语对空,但不允许目标语言 短语对空);是最终输出的目标语言翻译;[tm_s,tm_t,tm_f,s_a,tm_a]表示 从翻译记忆库中找到的最相似句子对以及它们之间的对齐信息;tm_s和 tm_t分别表示最相似的源语言句子和它的目标语言句子;tm_f表示tm_s 与源语言句子s之间的模糊匹配系数;s_a表示tm_s与s之间的编辑操作 信息;tm_a表示tm_s和tm_t之间的词对齐信息。

由此可见,融合翻译记忆的翻译模型是在给定源语言句子s和翻译 记忆信息[tm_s,tm_t,tm_f,s_a,tm_a]的情况下,在众多翻译候选t之中,搜索 概率最大的翻译结果

假设表示源语言句子s的某一个源语言短语序列,是对应目标 语言翻译候选的某种短语序列。由于翻译过程并不是自左向右顺序进 行的,因此,本发明优选实施例中将第k个生成的翻译候选短语对应 的源语言短语记为表示与(简写为)对应的目 标语言短语序列,即和表示的是同一句子s的不同语序排列(总 共K个短语,并且没有插入的目标语言短语,即没有目标语言短语对空 的情况。如果是一个被删除的短语,其对应的就是),是 源语言句子s的某一个源语言短语序列某一种排列形式。那么,公式 (1)可以展开为:

t^=argmaxtP(t|s,tm_s,tm_t,tm_f,s_a,tm_a)

=argmaxtΣ[s1K=s,t1K=t]P(t1K,sa(1)a(K)|s,tm_s,tm_t,tm_f,s_a,tm_a)---(2)

=Δargmaxtmax[s1K=s,t1K=t]{P(t1K|sa(1)a(K),tm_s,tm_t,tm_f,s_a,tm_a)×P(s1K|s)}

对于任意给定的源语言短语根据s_a可以找到它在tm_s中对应 的源语言短语另外,根据tm_s与tm_t之间的词对齐信息tm_a,可 以得到在tm_t中对应的翻译记忆目标语言短语一旦获得给 定源语言短语对应的和以后,公式(2)中的第一项 P(t1K|sa(1)a(K),tm_s,tm_t,tm_f,s_a,tm_a)可以进一步展开为:

P(t1K|sa(1)a(K),tm_s,tm_t,tm_f,s_a,tm_a)

=Σtm_ta(1)a(K)P(t1K,tm_ta(1)a(K)|sa(1)a(K),tm_sa(1)a(K),tm_t,z)

maxtm_ta(1)a(K)P(t1K,tm_ta(1)a(K)|sa(1)a(K),tm_sa(1)a(K),tm_t,z)---(3)

maxtm_ta(1)a(K)P(t1K,M1K|sa(1)a(K),L1K,z)

P(t1K|sa(1)a(K))×Πk=1Kmaxtm_ta(k)P(Mk|Lk,z)

上面公式中,Mk表示目标语言候选短语与对应的翻译记忆目标语 言短语之间的匹配状态,例如,目标短语候选内容匹配状态TCM、 目标短语相邻候选相对位置匹配状态CPM等等。Lk表示源语言短语相应的翻译记忆源语言短语以及目标语言短语三者之间的 匹配状态。例如,源语言短语内容匹配状态SCM、源语言短语长度特征 SPL以及句尾标点符号指示特征SEP等等。此外,将翻译记忆源语言句子 tm_s与源语言句子s之间的模糊匹配系数tm_z平均分配为10个相似度区 间:如[0.9,1.0)、[0.8,0.9)、[0.7,0.8)等等。用z来表示不同的相似度区 间。模糊匹配系数的计算公式为:

FMS(s,tm_s)=1-Levenshtein(s,tm_s)max(|s|,|tm_s|)---(4)

其中Levenshtein(s,tm_s)表示s和tm_s之间的编辑距离【参见“Vladimir  Iosifovich Levenshtein.1966.Binary codes capable of correcting deletions, insertions,and reversals.Soviet Physics Doklady,10(8):707-710.”】。编辑 距离是指将一个字符串s变为另外一个字符串tm_s所需要进行的插入、 删除和替换操作的最少编辑次数。|s|和|tm_s|分别表示s和tm_s的元素 数目。模糊匹配系数介于0到1之间。两个句子之间的模糊匹配系数越 高,表示两个句子之间的相似程度越高。

假设为均匀分布,并结合公式(3),那么翻译问题可以进一步 简化为:

t^=Δargmaxtmax[s1K=s,t1K=t][P(t1K|sa(1)a(K))×Πk=1Kmaxtm_ta(k)P(Mk|Lk,z)]---(5)

由于基于短语的翻译模型已经比较成熟,并且性能比较稳定。因此, 在融合翻译记忆的新模型中,上述公式中的第一项是用来计 算从翻译为的概率,在本发明优选实施例中采用标准的短语翻译 模型【参见“Philipp Koehn,Franz Josef Och and Daniel Marcu,2003. Statistical phrase-based translation.In Proceedings of the2003Conference  of the North American Chapter of the Association for Computational  Linguistics on Human Language Technology,pages48-54.”】,计算所述第 一项的概率值,而第二项P(Mk|Lk,z)用来表示当前翻译候选与翻译记忆中目标语言翻译短语之间内容以及位置的匹配关系, 其是从翻译记忆中抽取的相关特征计算得到的概率,即根据本发明提出 的模型一、模型二和模型三抽取的相关特征的得到的概率信息。这样一 来,本发明只需要将研究重点放在如何利用翻译记忆来抽取有用的信 息,而不用过多地修改已经比较成熟的短语翻译模型。

为了在解码过程中融入从翻译记忆中抽取的相关信息,本发明将 转换成解码器中实际使用的形式,并使用一个加权因子 α(0.0<α<1.0)来平衡和P(Mk|Lk,z),α的取值将由开发集决 定。因此,公式(5)可以进一步展开为:

t^=Δargmaxt{Πk=1K(exp[Σm=1Mλmhm(sa(k),tk)]Σtkexp[Σm=1Mλmhm(sa(k),tk)])α×Πk=1Kmaxtm_ta(k)P(Mk|Lk,z)1-α}

=argmaxt{Πk=1K[[{exp[Σm=1Mλmhm(sa(k),tk)]}α×maxtm_ta(k)P(Mk|Lk,z)1-α]{Σtkexp[Σm=1Mλmhm(sa(k),tk)]}α]}---(6)

=argmaxt{Πk=1K[{exp[Σm=1Mλmhm(sa(k),tk)]}α×maxtm_ta(k)P(Mk|Lk,z)1-α]}

=argmaxt{Σk=1K[α×Σm=1Mλmhm(sa(k),tk)+(1-α)×log(maxtm_ta(k)P(Mk|Lk,z))]}

公式(6)就是本发明融合翻译记忆和短语翻译模型后的整合式统计 机器翻译模型框架。其中,是翻译模型特征,例如短语翻译模 型中的翻译模型特征、调序特征以及语言模型特征。λm是翻译模型特征 的权重,M表示短语翻译模型所有特征值的个数。第一项 是对短语翻译模型中所有特征值的加和,第二项 P(Mk|Lk,z)是从翻译记忆中抽取的相关信息。从这个公式可以看出,在 解码过程中,不需要对短语翻译模型的分数进行归一化,可以继续保留 标准短语模型的计算方法。

下面介绍在上述融合翻译记忆后的整合式统计机器翻译模型框架 下的三种不同的融合模型,根据所述融合模型获得整合式统计机器翻译 模型中的P(Mk|Lk,z)。这三种模型由简到繁,由浅入深地挖掘了翻译记 忆所提供的信息:

模型一:

在这个最简单的模型中,对于Mk特征,仅考虑目标短语候选内容匹 配状态特征TCM。对于Lk特征,仅考虑以下四个特征:(1)源语言短 语内容匹配状态特征SCM;(2)源语言短语邻居匹配数量特征NLN; (3)源语言短语长度特征SPL;以及(4)句尾标点符号指示特征SEP。 于是,根据这些特征和模糊匹配区间索引z,P(Mk|Lk,z)可以改写为:

P(Mk|Lk,z)=ΔP(TCMk|SCMk,NLNk,SPLk,SEPk,z)

模型一中所使用特征的详细情况如下:

目标短语候选内容匹配状态TCM

所述目标短语候选内容匹配状态特征TCM,其反映的是翻译候选短 语与最相似源语言句子对应的目标语言句子中目标语言短语之 间的内容相似程度。本发明中根据与之间的模糊匹配系数,将 TCMk分成以下四种情况{Same,High,Low,Not-Applicable}:

(1)当与之间的模糊匹配系数等于1.0,即与完全一 样时,TCMk=Same;

(2)当与之间的模糊匹配系数处于0.5到1.0之间时, TCMk=High;

(3)当与之间的模糊匹配系数不大于0.5,且不为空时, TCMk=Low;

(4)当为空时,TCMk=Not-Applicabable。

其中,模糊匹配系数根据公式(4)计算得到。

源语言短语内容匹配状态特征SCM

所述源语言短语内容匹配状态特征SCM,其反映的是翻译候选短语 对应的源语言短语与源语言短语在最相似源语言句子tm_s中对 应的源语言短语之间的相似程度。根据与之间的模糊匹 配系数,将SCMk分成以下四种情况{Same,High,Low,Not-Applicable}:

(1)当与之间的模糊匹配系数等于1.0,即与完 全一样时,SCMk=Same;

(2)当与之间的模糊匹配系数处于0.5到1.0之间时, SCMk=High;

(3)当与之间的模糊匹配系数不大于0.5,且不为 空时,SCMk=Low;

(4)当为空时,SCMk=Not-Applicabable。

源语言短语邻居匹配数量特征NLN

除了源语言短语与之间的内容匹配状态特征SCM,会影 响与之间的相似程度外,与左右邻居的匹配状态,也 会在一定程度上影响CCM的选择。这是因为如果邻居匹配数量越大,说 明当前短语的上下文更相似,与也应该更相似。

因此,本发明中定义了源语言短语邻居匹配数量特征NLN,用一个 二维向量<x,y>表示NLNk,其中x表示与其左右邻居(单词) 匹配的数目,y表示匹配的邻居在tm_s与tm_t的词对齐上的状况。它可以 分为六种不同情况{<x,y>∶<2,2>,<2,1>,<2,0>,<1,1>,<1,0>,<0, 0>}。每种情况的具体定义如下:

(1)<2,2>:表示与的左右相邻的单词都是匹配的(即 相同的),并且这两个单词(即的左右相邻的单词)在tm_s与tm_t 的词对齐上都不是对空的(稍后解释);

(2)<2,1>:表示与的左右相邻的单词都是匹配的,但 是这两个单词中,有且仅有一个在tm_s与tm_t的词对齐上是对空的;

(3)<2,0>:表示与的左右相邻的单词都是匹配的,并 且这两个单词在tm_s与tm_t的词对齐上都是对空的;

(4)<1,1>:表示与的左右相邻的单词中,有且仅有一 个相邻的单词是匹配的,并且这个单词在tm_s与tm_t的词对齐上不是对 空的;

(5)<1,0>:表示与的左右相邻的单词中,有且仅有一 个相邻的单词是匹配的,并且这个单词在tm_s与tm_t的词对齐上是对空 的;

(6)<0,0>:表示与的左右相邻的都不匹配。

词对齐对空是指源语言句子中的某些单词,在目标语言句子中没有 对应的翻译。例如,图2中的翻译记忆源语言句子tm_s中的第五个词“的 5”,在对应的翻译记忆目标语言句子tm_t中就没有对应的翻译;类似地, 翻译记忆目标语言句子tm_t中的第6个单词“with6”和第7个单词“the7”, 在翻译记忆源语言句子中也没有对应的翻译。因此,它们在词对齐上都 是对空的。

由此可见,NLNk不仅考虑了与左右邻居的匹配情况,还 考虑了匹配的邻居在目标语言上的词对齐状态。

源语言短语长度特征SPL

源语言短语长度也在一定程度上反映了翻译记忆信息的可靠性。当 TM源语言短语越长时,它涵盖的内容就越多,其对应的TM翻译也 就越可靠。尤其是与恰好为匹配(SCMk=Same)的时候,的长度越长,对应的也会越可靠。因此,本发明中定义了 源语言短语长度特征SPL,它可以分为以下五种情况{1,2,3,4,5}。 其中,每个数字表示的是源语言短语的单词数目:

(1)当源语言短语包括五个以下的源语言单词时, SPLk=length(sa(k));

(2)当源语言短语包括五个及五个以上的源语言单词时, SPLk=5。

句尾标点符号指示特征SEP

经过统计发现,句尾标点符号单独作为一个源语言短语时,它相应 的SCMk和TCMk都是Same。因此,当源语言短语是句尾标点符号时,这 两个特征(SCMk和TCMk)是完全正相关的。此外,由于句尾标点符号 的右边是句尾标记(Sentence Delimiter),NLNk中的x肯定是1或者2。所以, 对其它短语而言,如果不区分这种情况,将会带来相当大的系统化偏差 (Systematic Bias)。因此,为了区分句尾标点符号与其他的源语言短语, 本发明中定义了句尾标点符号指示特征SEP。它可以分为两种情况{Yes, No}:

(1)当位于句尾,并且是一个标点符号时,SEPk=Yes;

(2)其他情况,SEPk=No。

图2示出了通过融合模型一获取相应翻译记忆信息的具体实例。下 面通过图2示出的例子来说明上述模型一中各个特征的具体情况。假设 待翻译的源语言句子s是(每个词后面的数字是该词在句子中的位置索 引号):

获取01设置23批注4关联56对象7о8

从翻译记忆中找到的最相似的源语言句子tm_s是:

获取01批注2标签3关联45对象6о7

计算得到s与tm_s之间的模糊匹配系数是0.667,于是,可以确定模 糊匹配区间索引z=[0.6,0.7)。

tm_s的对应英文翻译tm_t是:

gets0an1obiect2that3is4associated5with6the7annotation8label9·10

假设解码器中当前的源语言短语是“关联56对象7”,可以确定 源语言短语长度特征SPL=3和句尾标点符号指示特征SEP=No。根据短 语匹配算法很容易得知对应的是“关联45对象6”,进一步可以 确定源语言短语内容匹配状态特征SCM=Same。同时,由于的左右邻 居分别是“批注4”和“о8”,的左右邻居分别是“标签3”和“о7”,双 方仅有右边的邻居“о8”和“о7”是匹配的,而且不是对空的,因此,可以 确定源语言短语邻居匹配数量特征NLN=<1,1>。这些特征都是源语言端 的匹配状态特征,与目标候选翻译短语无关。下面再介绍与目标翻译短 语相关的特征TCM。

假设解码器中当前的目标语言短语候选是“object that is associated  with”,根据目标语言短语抽取算法,可以获取多个候选。对于其 中的某一个候选“object that is associated with”,即图2中的候选1 (翻译记忆目标短语1),由于与之间的模糊匹配系数为1.0,则 目标短语候选内容匹配状态特征TCMk=Same;对于另一个候选“an  object that is associated with the”,即图2中的候选2(翻译记忆目标短语 2),由于与之间的模糊匹配系数为0.714,则TCMk=High。

模型二:

模型一仅考虑了目标短语候选内容匹配状态特征TCM,它忽略了翻 译记忆中翻译候选的候选集合状态特征。因此无法限制可能的 候选情况,并忽视了某一个候选与其他候选者之间的关系。 所以,模型二在模型一的基础上,在源语言短语相应的翻译记忆 源语言短语以及目标语言短语三者之间的匹配状态特征Lk中引入了TM翻译候选集合状态特征CSS,并在表示目标语言候选短语与对应的翻译记忆目标语言短语之间的匹配状态特征Mk中引入了 翻译记忆最长候选指示特征LTC。于是,在引入CSS和LTC这两个特征 以后,P(Mk|Lk,z)可以改写为:

P(Mk|Lk,z)

=ΔP(TCMk,LTCk|SCMk,NLNk,CSSk,SPLk,SEPk,z)

P(TCMk|SCMk,NLNk,LTCk,SPLk,SEPk,z)×P(LTCk|CSSk,SCMk,NLNk,SEPk,z)

模型二中新引入的CSS和LTC两个特征的详细情况如下:

翻译记忆的翻译候选集合状态特征CSS

对于某一个在tm_s中的对应候选翻译可能会有多个。 如果将这多个候选翻译看作是一个集合,则这个集合的状态决定了 的可能状态。因此,本发明定义了翻译记忆的翻译候选集合状态 特征CSS来描述这个集合的状态。CSSk可以分为五种不同的情况{Single, Left-Ext,Right-Ext,Both-Ext,Not-Applicable}:

(1)如果对于当前的有且仅有一个候选时, CSSk=Single;

(2)如果对于当前的存在多个候选,并且所有候选 只能向左边扩展时,CSSk=Left-Ext;

(3)如果对于当前的存在多个候选,并且所有候选 只能向右边扩展时,CSSk=Right-Ext;

(4)如果对于当前的存在多个候选,并且翻译候选 可以同时向左右两边扩展时,CSSk=Both-Ext;

(5)如果当前的为空时,CSSk=Not-Applicabable。

翻译记忆的最长候选指示特征LTC

翻译记忆的最长候选指示特征LTC,主要是用于指示当前的在TM翻译候选集中是否是长度最长的候选。LTCk包含6种不同的情况 {Original,Left-Longest,Right-Longest,Both-Longest,Medium, Not-Applicable}:

(1)如果当前的没有进行扩展时,LTCk=Original;

(2)如果当前的仅向左进行了扩展,并且扩展到最长时, LTCk=Left-Longest;

(3)如果当前的仅向右进行了扩展,并且扩展到最长时, LTCk=Right-Longest;

(4)如果当前的向左右都进行了扩展,并且都扩展到最长时, LTCk=Both-Longest;

(5)如果当前的进行了扩展,但没有扩展到最长时, LTCk=Medium;

(6)如果当前的为空时,LTCk=Not-Applicabable。

图3示出了通过融合模型二获取相应翻译记忆信息的具体实例。继 续使用图2示出的模型一的例子来介绍模型二中使用的特征。如图3所 示,假设解码器中当前的源语言短语是“关联56对象7”,目标语言 短语候选是“object that is associated with”。由于存在多个候选, 并且向左右方向都可以进行扩展,因此,CSS=Both-Ext。假设当前的 是“object that is associated”,则TCM=High、LTC=Medium;若当 前的是“object that is associated with”,则TCM=Same、 LTC=Original;若当前的是“an object that is associated with the”, 则TCM=High、LTC=Both-Longest。

模型三:

在考虑目标语言端的匹配状态特征Mk时,模型一仅考虑了目标翻译 候选内容匹配状态特征TCM。模型二在模型一的基础上,考虑了翻译记 忆最长候选指标特征LTC。但是,模型一和模型二都没有考虑目标短语 相邻候选间的相对位置匹配状态,因此可以借鉴的调序信息在模型一和 模型二都并没用利用到。所以,模型三在模型一和模型二的基础上,引 入了目标短语相邻候选相对位置匹配状态特征CPM。于是,在引入CPM 特征以后,P(MkLk,z)可以改写为:

P(Mk|Lk,z)

=ΔP([TCM,LTC,CPM]k|[SCM,NLN,SPL,SEP]k,z)

=P(TCMk|SCMk,NLNk,LTCk,SPLk,SEPk,z)×P(LTCk|CSSk,SCMk,NLNk,SEPk,z)×P(CPMk|TCMk,SCMk,NLNk,z)

模型三中新引入的CPM特征的详细情况如下:

目标短语相邻候选相对位置匹配状态特征CPM

在生成的翻译句子t中,目标翻译短语对与之 间的相关位置匹配信息,常常反映了在生成的翻译句子t中的排序好 坏。由于翻译记忆中的参考翻译tm_t的翻译质量通常非常好,假如与之间的相对位置是一致的,说明当前生成的翻译 与TM的参考翻译中的语序是一致的,应该是比较好的翻译。

因此,本发明定义了目标短语相邻候选相对位置匹配状态特征 CPM,它反映的是与之间的相对位置匹配关系。 CPMk可以分为以下九种不同的情况{Adjacent-Same,Adjacent-Substitute, Linked-Interleaved,Linked-Cross,Linked-Reversed,Skip-Forward, Skip-Cross,Skip-Reversed,Not-Applicable}:

(I)如果和都不为空:

(I.1)若与之间的相对位置一致,且直 接跟在后面(即紧邻的):

(I.1.a)若与的右边界词相同,且与的左边界词 相同,则CPMk=Adjacent-Same;

(I.1.b)若与的右边界词以及与的左边界词,这两 对边界词中至少有一对是不相同的,则CPMk=Adjacent-Substitute;

(I.2)若与之间的相对位置一致(即完 全在的右边,没有任何交叉重叠),但与并不是紧 邻的,则CPMk=Linked-Interleaved;

(I.3)若与之间的相对位置不一致:

(I.3.a)若与存在交叉重叠的部分,则 CPMk=Linked-Cross;

(I.3.b)若完全在的左边,没有任何交叉重叠,则 CPMk=Linked-Reversed;

(II)如果到皆为空(即不为空,并且 tm_ta(0)=Left-Delimiter),但不为空:

(II.1)若与之间的相对位置一致(即完 全在的右边,没有任何交叉重叠),则CPMk=Skip-Forward;

(II.2)若与之间的相对位置不一致:

(II.2.a)若与存在交叉重叠的部分,则 CPMk=Skip-Cross;

(II.2.b)若完全在的左边,没有任何交叉重叠,则 CPMk=Skip-Reversed;

(III)如果为空,则CPMk=Not-Applicabable。

图4示出了通过融合模型三获取相应翻译记忆信息的具体实例。继 续使用图2示出的模型一的例子来介绍模型三中使用的特征。如图4所 示,假设解码器中当前的源语言短语是“关联56对象7”,则其对应 的为“关联45对象6”。除了CPM特征以外,其他特征都和模型 二是一样的,因此这里不再累述。下面用两个例子来详细介绍模型三中 使用的CPM特征。

在例子一中,假设目标语言短语候选是“object that is associated  with”,前面已经生成的翻译是“gets an”,是“gets0an1”,如果 当前的是“object2that3is4associated5”,由于的右边界词的 索引编号是1,的左边界词的索引编号是2;并且,的左边界词 是“object”,的右边界词是“an”,的左边界词也是“object”, 的右边界词也是“an”,因此,CPMk=Adjacent-Same;如果当前的 是“object2that3is4associated5with6”,则情况与上面一样,因此, CPMk=Adjacent-Same;如果当前的是“an1object2that3is4associated5with6the7”,由于的右边界词的索引编号是1,的左边界词 的索引编号也是1,则CPMk=Linked-Cross。

在例子二中,假设目标语言短语候选是“the object that is associated  with”,前面已经生成的翻译是“gets”,是“gets0”。如果当前的 是“object2that3is4associated5”,由于的右边界词的索引编 号是0,的左边界词的索引编号是2,因此,CPMk=Linked-Interleaved; 如果当前的是“object2that3is4associated5with6”,则情况与上面一 样,因此,CPMk=Linked-Interleaved;如果当前的是“an1object2that3is4associated5with6the7”,由于的右边界词的索引编号是0,的左边界词的索引编号是1;并且,的左边界词是“the”,的右边界 词是“gets”,的左边界词也是“an”,的右边界词是“gets”, 则CPMk=Adjacent-Substitute。

本发明中利用训练集中的双语短语切分对训练上述三种模型,进而 得到不同的源语言短语和目标语言候选短语所对应的上述三种融 合模型所定义的特征和z对应的P(Mk|Lk,z)值,并记录这些P(Mk|Lk,z)的 值。

本发明利用Factored Language Model工具包【参见“Katrin Kirchhoff, Jeff A.Bilmes and Kevin Duh,2007.Factored Language Models Tutorial. Technical report,Department of Electrical Engineering,University of  Washington,Seattle,Washington,USA.”】,采用Witten-Bell平滑方法【参 见“T.C.Bell,J.G Cleary and I.H.Witten,1990.Text compression:Prentice  Hall,Englewood Cliffs,NJ.”】,估计P(Mk|Lk,z)的概率值(即三个模型的 概率值,也就是公式(6)中的P(MkLk,z))。这样就可以得到不同条件 下P(Mk|Lk,z)的概率值。Factored Language Model工具包可以在以下网址 免费下载:

http://www-speech.sri.com/proiects/srilm/download.html

本发明使用最小错误率参数训练方法MERT【参见“Franz Josef Och, 2003.Minimum error rate training in statistical machine translation.In  Proceedings of the41st Annual Meeting of the Association for  Computational Linguistics,pages160-167.”】在开发集上进行参数训练, 并获取公式(6)中的加权因子α。

然后根据步骤2中介绍的获取短语翻译模型的方法,使用训练集中 所有双语训练语料,训练一个短语翻译模型,即得到相应的翻译模型特 征及其特征权重,即得到公式(6)中不同的的源语言短语与其对应 的目标语言候选短语对应的λm和的取值,进而在短语翻译解 码过程中使用。

步骤5.短语翻译模型解码过程中,根据翻译记忆提供的信息和已经 训练好的短语翻译模型和融合模型对输入的待翻译内容进行翻译。具体 步骤包括:

(1)如果输入的待翻译句子需要分词,如汉语,则需要使用步骤1 中提到的Urheen词法分析工具对输入句子进行分词;

(2)在短语翻译模型解码过程中,首先根据步骤2中所得到的双语 短语对切分获得所述待翻译句子的源语言短语及其目标候选短语,并根 据源语言短语及其目标候选短语,从所训练好的短语翻译模型中获取相 应的λm

(3)根据翻译记忆提供的信息,确定每个目标候选短语的相关特 征,即模型一、模型二和模型三中定义的特征,并确定这些特征对应的 P(Mk|Lk,z)概率值。

(4)根据步骤4中训练好的短语翻译模型、模型一、模型二、模型 三确定源语言短语及其所对应的目标候选短语对应的的λm、 P(Mk|Lk,z)概率值以及加权因子α,按照公式(6),得到待翻译句子的 目标翻译句子。

下面通过实验数据来说明本发明提出的上述融合翻译记忆和短语 翻译模型的翻译方法所达到的性能。在实验中,使用一个计算机领域的 汉-英翻译记忆库进行实验。这个记忆库包含26.7万汉英平行句对。从中 随机抽取了开发集和测试集,剩余部分作为训练集。表1给出了训练集、 开发集和测试集的统计信息。该实验中将训练集作为翻译记忆库,根据 模糊匹配系数,将测试集分成了不同的模糊匹配区间,表2给出了测试 集的详细统计信息。

表1:实验数据统计信息

表2:实验数据统计信息

表3和表4给出了各种方法的翻译结果对比。其中,“TM”是翻译记忆 系统;“SMT”是短语翻译系统;“*”表示该方法在p<0.05的水平上统计 显著地优于翻译记忆系统(TM)和短语翻译系统(SMT)。粗体表示该 区间上的最优翻译结果。

表3:各种方法的翻译结果(BLEU%),“*”表示该方法在p<0.05的水 平上统计显著地优于翻译记忆系统(TM)和短语翻译系统(SMT)。

表4:各种方法的翻译结果(TER%),“*”表示该方法在p<0.05的水平 上统计显著地优于翻译记忆系统(TM)和短语翻译系统(SMT)。

从表3和表4中的翻译结果可以看出,在[0.9,1.0)区间,翻译记忆系 统的TER值显著地小于短语翻译系统的TER值。这也从侧面说明了为什 么专业翻译人员倾向于使用翻译记忆系统进行辅助翻译,而不倾向于使 用机器翻译进行辅助翻译。与翻译记忆系统和短语翻译系统相比,当模 糊匹配系数大于0.7时,无论是BLEU值还是TER值,模型一统计显著地 短语翻译系统;当模糊匹配系数大于0.5时,无论是BLEU值还是TER值, 模型二都统计显著地优于翻译记忆系统和短语翻译系统;当模糊匹配系 数大于0.4时,无论是BLEU值还是TER值,模型三都统计显著地优于翻 译记忆系统和短语翻译系统。

从整体翻译结果来看,模型一、模型二和模型三的翻译性能逐步上 升,模型三的翻译结果最好。这也符合本发明的预期,模型三融入的翻 译记忆信息最多。与翻译记忆相比,模型三的BLEU值提高了16.34个百 分点,TER值下降了17.25个百分点。这说明相比于翻译记忆,本发明能 够进一步减少人工后编辑的工作量,加快工作效率。与短语翻译系统相 比,模型三的BLEU值提高了3.48个百分点,TER值下降了2.62个百分点。

在实验中,本发明采用大小写不敏感的BLEU-4【参见“Kishore  Papineni,Salim Roukos,Todd Ward and Wei-Jing Zhu,2002.BLEU:a  method for automatic evaluation of machine translation.In Proceedings of  the40th Annual Meeting of the Association for Computational Linguistics  (ACL),pages311-318.”】以及翻译错误率TER【参见“Matthew Snover, Bonnie Dorr,Richard Schwartz,Linnea Micciulla,John Makhoul.2006.A  study of translation edit rate with targeted human annotation,In Proceedings  of Association for Machine Translation in the Americas(AMTA-2006),pp. 223-231.”】作为译文评价标准,并采用自举重采样(Bootstrap  Re-sampling)方法【参见“Philipp Koehn,2004.Statistical significance tests  for machine translation evaluation.In Proceedings of the2004Conference  on Empirical Methods in Natural Language Processing(EMNLP),pages 388-395,Barcelona,Spain.”】检测两个翻译系统之间的统计显著性差异。 其中,BLEU值越大表明翻译质量越好;TER值越小表明翻译质量越好。

由于本发明的方法不是针对两种特定的语言而提出的,所以本发明 的方法具有普遍的适用性。本发明虽然只在汉语和英语两种语言上进行 了实验验证,但本发明同时也适用于其它语言对,如日语和汉语、阿拉 伯语和英语等。

以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并 不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理 解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发 明的保护范围应该以权利要求书的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号