首页> 中国专利> 一种固定搭配型短语优先的两段式机器翻译方法

一种固定搭配型短语优先的两段式机器翻译方法

摘要

本发明涉及一种通过优先翻译由一个或多个短语嵌套组成的固定搭配型短语达到整句翻译目的的机器翻译方法。本发明的实施方式,包括以下步骤:标记固定搭配,将源语言句子中的固定搭配标记出来;翻译固定搭配,将固定搭配分为两部分分别翻译,再重组译文;短语划分,将原句子剩余部分划分为所有可能的短语,固定搭配部分作为已翻译部分;构造候选短语表,仅仅将存在于短语翻译概率表中的短语筛选出来,并加入候选短语表;句子翻译,对于由固定搭配译文及其他未翻译部分组成的局部翻译的源语言句子,利用现有启发式解码器和候选短语表为其生成最优译文。本发明的第一阶段为翻译固定搭配型短语,第二阶段为翻译句子剩余部分。

著录项

  • 公开/公告号CN106156013A

    专利类型发明专利

  • 公开/公告日2016-11-23

    原文格式PDF

  • 申请/专利权人 电子科技大学;

    申请/专利号CN201610522056.2

  • 发明设计人 秦科;刘贵松;罗光春;段贵多;

    申请日2016-06-30

  • 分类号G06F17/28(20060101);

  • 代理机构成都弘毅天承知识产权代理有限公司;

  • 代理人李春芳

  • 地址 611731 四川省成都市高新区(西区)西源大道2006号

  • 入库时间 2023-06-19 00:56:20

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-02-19

    授权

    授权

  • 2016-12-21

    实质审查的生效 IPC(主分类):G06F17/28 申请日:20160630

    实质审查的生效

  • 2016-11-23

    公开

    公开

说明书

技术领域

本发明涉及机器翻译领域,具体涉及一种优先翻译固定搭配的两段式统计机器翻译方法。

背景技术

统计机器翻译是一种数据驱动的翻译方法,它把自然语言的翻译看作是机器学习问题,用数学模型对译文建模,并利用具备一定规模的双语平行语料库训练这个模型和参数,最后使用这个模型来生成概率最大的译文。相比基于规则的翻译方法,统计机器翻译无需人类专家撰写翻译规则,其翻译规则可以通过训练过程从平行语料库中自动获取。另外统计机器翻译具有语言无关性,只要提供对应语言对的平行语料库,统计机器翻译就能训练出对应的翻译模型,无需对翻译方法做根本性的修改。上文提到的三种统计机器翻译方法是目前主流的统计机器翻译方法,有比较多针对这三种方法进行实现的开源软件和工具包,其翻译效果达到了一定水平,已经发展得较为成熟了。从以上特点可以看出,统计机器翻译系统比较灵活、开发代价低、性能较好,是目前被广泛应用的翻译方法。

基于短语的统计机器翻译从双语平行语料库中抽取短语,得到短语翻译概率表,其中的短语是指连续的词语串。短语翻译概率表中的短语包含了大块的、紧密相邻的词语序列,既包含具有语法意义的习惯用语、固定搭配,也包含一些无语法意义的构成句子的词语序列。这种翻译方法具有极强的语言无关性且不需要进行复杂的语法分析,还能取得一定的效果,是目前比较适合一些小语种的机器翻译方法。

然而基于短语统计的机器翻译方法也有其与生俱来的不足。一方面,尽管短语包含了大量的上下文信息,自然解决了短语内部词语排列顺序的问题,但是该方法对于句子的一种短语划分中的多个短语的顺序调整并不理想,特别是句子成分顺序差异较大的语种翻译情形,这就是所谓的远距离调序问题;另一方面,在翻译过程中,对于一个具体的短语,从短语翻译概率表中寻找对应的翻译是使用完全匹配的方法,即如果能从短语翻译概率表中找到一样的短语,则能获得对应的翻译;如果找不到,则不能翻译。以中英翻译为例,对于具体的短语“与上文一致”,如果在短语翻译概率表中无法找到“与上文一致”的短语项,即使存在差一个字的短语“与前文一致”,仍然无法翻译该短语,这就是所谓的数据稀疏问题;最后,短语翻译概率表中短语均为连续短语,然而实际语言中还包含一类词语不连续的但具有语法意义的固定搭配,比如某些包含介词的固定搭配,例如“与…一致”这类非连续短语,因该方法中的短语长度受到限制,故而其中短语通常无法完整地包含这类不连续的固定搭配,从而导致翻译效果的降低,以中英翻译为例,假设短语翻译概率表中的短语长度上限为4,则对于“与上文提到的观点一致”这个包含6个词语的短语,并不会存在于短语翻译概率表中,反而存在“与上文提到的”这类不完整短语,从而最终译文就与正确译文“consistent with opinion mentioned above”有所差异。也就是说基于短语的统计机器翻译方法无法翻译“与…一致”这类非连续短语。

其中后两个缺陷在语料库规模较小时更加显著,因而探索如何深入挖掘现有语料、充分利用有限语料这样的问题是非常必要的。

发明内容

针对上述现有技术,本发明目的在于提供一种基于统计的机器翻译方法,其旨在解决现有技术基于短语的统计机器翻译中因语料库规模有限以及其限制被抽取短语长度导致的数据稀疏问题。

为达到上述目的,本发明采用的技术方案如下:

一种固定搭配型短语优先的两段式机器翻译方法,包括如下步骤,

步骤1、在短语模板库中,根据其中的短语模板标记出待翻译源语言句子中存在的固定搭配;

步骤2、在固定搭配中,获得与短语模板相匹配的词语译文,再将与短语模板相匹配的词语去除后的剩余部分作为新的待翻译句子,发送至步骤1后迭代得出新的待翻译句子的译文,将该译文、与短语模板相匹配的词语译文合并成固定搭配的译文;

步骤1和2为翻译的第一个阶段;

步骤3、获取双语短语翻译概率表,再将待翻译源语言句子中未被标记的其余部分进行短语划分,并根据所划分的短语在双语短语翻译概率表中进行检索及匹配;

步骤4、如果所划分的短语与双语短语翻译概率表中短语完全匹配,则将双语短语翻译概率表中匹配到的相应短语作为解码过程的候选短语;

步骤5、通过将固定搭配的译文对应替换待翻译源语言句子,得到部分翻译的待翻译句子,并根据候选短语利用启发式解码器对部分翻译的待翻译句子进行翻译,最后生成译文。

步骤3、4和5为翻译的第二个阶段。

上述方法中,所述的步骤1,其短语模板包括终结符和非终结符,终结符为固定搭配的主干词语,非终结符是固定搭配的可替换部分。

上述方法中,所述的步骤1,标记固定搭配的步骤包括:

步骤1.1、遍历待翻译源语言句子中的词语,检索短语模板库中是否存在以一词语开始的短语模板,如果其存在,则将该词语作为标记的短语模板的开始部分并执行下一步骤;

步骤1.2、从该词语开始,遍历待翻译源语言句子余下部分,检索是否存在另一词语能够匹配当前标记的短语模板剩余部分的词语,如果存在,则得到的词语作为标记的短语模板的结尾,并对应标记出在待翻译源语言句子中的固定搭配。

上述方法中,所述的步骤2,其中,

获取固定搭配译文是将固定搭配的可替换部分作为一个新的待翻译句子,通过迭代的方式得到译文;

再根据固定搭配内的词语位置对应关系,将可替换部分译文、与短语模板相匹配的词语译文合并得到固定搭配的译文。

上述方法中,所述的步骤3中的双语短语翻译概率表获取步骤包括:

步骤3.1、对双语平行语料库进行词对齐训练,获得包含词对齐信息的语料库;

步骤3.2、从所获得的语料库中抽取短语对,获得双语短语翻译概率表。

上述方法中,所述的上述步骤3.2可分为以下步骤:

步骤3.2.1、从所获得语料库中的词语对齐的句子中抽取短语对;

步骤3.2.2、计算抽取出的短语对的翻译概率,获得短语翻译概率表。

上述方法中,所述的步骤3.2.2,其翻译概率包含正、反向短语翻译概率和正、反向词汇化概率。

上述方法中,所述的步骤5,其步骤包括,

步骤5.1、通过将固定搭配的译文对应替换待翻译源语言句子,得到部分翻译的待翻译句子;

步骤5.2、将筛选得到的候选短语以及部分翻译的待翻译句子交给启发式解码器,启发式解码器生成译文。

与现有技术相比,本发明的有益效果:

本发明通过事先提取源语言句子中的词语数量较多的固定搭配并将之提前翻译,从而弥补了短语翻译模型对复杂的短语调序的不足,同时克服了因短语长度限制使得短语无法完整覆盖较长的固定搭配这一缺陷,从而提高了翻译效果;本发明通过深入挖掘语料库获得短语模板,并使用外部模板,充分地利用了有限的语料库,模板的使用一定程度上缓解了数据稀疏问题。本发明能利用现有的启发式解码器生成译文。

附图说明

图1为本发明的翻译原理图;

图2为本发明的三大训练过程示意图;

图3为本发明的短语翻译概率表的获取;

图4为本发明的双语语料预处理过程;

图5为本发明的短语抽取过程;

图6为本发明的句子翻译。

具体实施方式

本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。

下面结合附图对本发明做进一步说明:

实施例1

基于短语的统计机器翻译包含训练和翻译两部分,训练部分主要是获取解码器所需的模型,其中步骤S3中的短语翻译概率表即由训练部分获得;获得短语翻译概率表等训练结果后,解码器利用短语翻译概率表等训练结果对待翻译句子进行翻译。

1、训练部分的具体实施如下:

训练主要包括三部分,即翻译模型训练、语言模型训练和调优训练,具体参见图2;本领域内的技术人员可以理解,翻译模型训练主要是获得短语翻译概率表,现有的训练方式存在多种,其中一种如图3所示,分为以下三个步骤:

步骤301,双语语料预处理。见图4,首先是分词处理,对于没有自然分词的语言需要利用分词工具进行分词;然后句子过滤,对分词后的语料库中每个句子进行长度过滤,这一步将舍弃词语数超过30的句子,较短的句子能得到更好的结果;接着是将全角字符转换为半角字符,对过滤后得到的语料库中句子进行编码转换能使得语料库更为规范统一。

步骤302,词对齐训练。词对齐是一项比较成熟的技术,本实施例中利用Peter Brown论文中的期望最大化算法以迭代的方式从平行语料库中获得A语言到B语言的词语对应关系。这个步骤使用是经过双语语料预处理后的语料库,利用的是免费使用的实现了IBM模型的词对齐软件GIZA++。为了获得对称的多多词对齐,首先利用GIZA++进行A语言到B语言的词对齐,再进行B语言到A语言的词对齐,在这种双向词对齐之后应用启发式方法grow-diag-final获得多对多的对称的词语对应关系。由这个词对齐关系可以统计出词语翻译概率,即w(e|f)和w(f|e),表示两种语言词语互为翻译的概率。词对齐信息用于后续的短语抽取过程。

步骤303,短语抽取。短语抽取是抽取翻译规则的核心步骤,这个步骤利用词对齐信息来抽取短语对并计算概率得到短语翻译概率表。见图5,该步骤包含如下步骤:

首先,抽取双语短语。从句首的词语开始,遍历可能的短语组合,并通过词对齐信息判定当前短语组合得到的短语对是否满足词对齐一致性,即A短语中的词语与B短语中的词语至少相互对齐并且不能对齐到其他短语中的词语。例如,双语句对“长城从秦朝开始修建,the great wall was built since qin dynasty”,其中词语对齐信息为“1:1 1:2 1:3 2:6 3:7 3:8 4:6 5:4 5:5”,则根据该词对齐信息可抽取短语对“长城|||the great wall|||1:1 1:2 1:3”,“秦朝|||qin dynasty|||3:7 4:8”,“从秦朝开始修建|||was built since qin dynasty”等。

然后,计算短语对翻译概率。包含正向短语翻译概率φ(e|f)、反向短语翻译概率φ(f|e)、正向词汇化翻译概率lex(e|f)和反向词汇化翻译概率lex(f|e)等。

短语翻译概率φ(f|e)表示短语e翻译成短语f的概率,计算方法如下:

φ(f|e)=count((e,f))Σk=1Kcount((e,fk))

其中,count((e,fk))表示短语对(e,fk)在整个语料库中出现的次数,K表示与目标语言短语e对齐的源短语的个数。同理可以计算φ(e|f)。

词汇化翻译概lex(e|f)表示短语f翻译成短语e的词汇化概率,计算方法如下:

lex(e|f,A)=Πi=1length(e)1|{j|(i,j)A}|Σ(i,j)Aw(ei|fj)

其中,fj表示源语言短语f中的词语,ei表示目标语言短语e中的词语,w(ei|fj)表示词汇翻译概率。当ei与源语言短语f中的k个词语对齐时,公式中的分数为1/k。同理可计算lex(f|e)。

本领域的技术人员可以理解,现有语言模型训练技术有多种,其中一种训练方式分为两个步骤:

1)单语语料预处理。单语语料处理与翻译模型训练过程中的预处理过程类似,只是这里只针对双语平行语料库的其中一方语言。首先是分词处理,对于没有自然分词的语言需要利用分词工具进行分词;然后句子过滤,对分词后的语料库中每个句子进行长度过滤,这一步将舍弃词语数超过30的句子,较短的句子能得到更好的结果;接着是将全角字符转换为半角字符,对过滤后得到的语料库中句子进行编码转换能使得语料库更为规范统一。

2)语言模型训练。语言模型训练是对翻译中的目标语言进行n-gram建模,这个过程使用KenLM工具生成符合ARPA标准的语言模型文件,本步骤训练目标语言的3元语言模型。

本领域的技术人员可以理解,现有调优训练有多种,其中一种分为两个步骤:

1)双语语料预处理。调优训练使用一个小规模的双语语料作为开发集来训练各个子模型的最佳参数,其预处理过程与翻译模型训练中的一致。

2)最小错误率训练。为了获得最好的翻译效果,这一步使用Och的最大化BLEU训练算法MERT来对模型的权重进行训练,获得模型的最佳权重。

2、翻译部分的具体实施如下:

如图1所示,步骤S1标记固定搭配。遍历待翻译句子中每一个词语,如果能够匹配到短语模板库中的短语模板,则可以根据模板的起始位置词语标记出待翻译源语言句子中存在的固定搭配。

步骤S2翻译固定搭配。对于标记出来的固定搭配,去除短语模板所占用词语的剩余部分称为可替换部分,可替换部分作为新的待翻译句子,转到步骤S1,通过迭代的方式,最终得到其译文,根据可替换部分在短语模板源文与译文中位置的对应关系,将该部分译文与短语模板的译文合并从而获得固定搭配的译文。

步骤S3短语划分。对于源语言句子,去除固定搭配之后,即待翻译源语言句子其余部分,将其进行短语划分,下一步将根据划分的短语检索短语翻译概率表,而固定搭配部分作为已翻译部分不处理。

步骤S4构造候选短语表。在步骤S3划分得到的短语中,如果所划分的短语与短语翻译概率表中短语完全匹配,则将短语翻译概率表中的相应短语对作为解码过程的候选短语对,从而得到候选短语表。

步骤S5执行句子翻译,见图6,将固定搭配部分替换为其译文得到部分翻译的待翻译句子,并根据上述候选短语利用启发式解码器来翻译。基于启发式算法的解码器利用训练过程中得到的短语翻译表、语言模型文件和参数配置以及构成一个生成译文的部件。翻译单元可以对一个待翻译句子进行解码,即从短语翻译表中查找可能的翻译扩展译文,并在这个过程中保存概率较大的译文和舍弃概率较小的译文,最后得到最优译文。

举例来说,将中文句子“这个观点与上文提到的观点一致”翻译为英文,首先执行步骤S1,根据第4个词语“与”和最后一个词语“一致”匹配到短语模板“与X一致”,其中终结符部分“与…一致”是模板的主干,非终结符部分“X”是模板的可替换部分,根据这个模板可以标记出句子中的固定搭配“与上文提到的观点一致”,固定搭配的可替换部分为“上文提到的观点”,这是新的待翻译句子。

然后执行步骤S2,将步骤S1得到的新的待翻译句子作为本发明的输入,迭代得到其译文,由于其中不包含固定搭配,所以可以直接通过短语统计机器翻译获得其译文“the opinion mentioned above”,根据短语模板中非终结符的位置对应关系,即“与X一致”和“is consistent with X”中X是对应的,从而得到组合之后固定搭配的译文“is consistent with the opinion mentioned above”。

接着执行步骤S3,对句子其余部分进行短语划分,除去“与上文提到的观点一致”之后,剩余部分为“这个观点”,可以得到两种短语划分“[这个观点]”和“[这个][观点]”。

接着执行步骤S4,从短语翻译概率表中检索步骤S3划分得到的短语,如果完全匹配则将对应的双语短语对加入候选短语表中,例如从短语翻译概率表中存在短语“这个观点”,则将双语短语对“这个观点|||the opinion|||1:1 2:2|||0.41 0.63”加入候选短语表。

最后执行步骤S5,这一步生成译文,局部翻译的句子为“这个观点is consistent with the opinion mentioned above”,以及包含双语短语对“这个观点|||the opinion|||1:1 2:2|||0.41 0.63”的候选短语表,启发式解码器从候选短语表中选取候选短语来生成译文,并最终选择得分最高的译文。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何属于本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号