首页> 中国专利> 基于层次短语模型的译文词序概率确定方法及装置

基于层次短语模型的译文词序概率确定方法及装置

摘要

本发明实施例公开了一种基于层次短语模型的译文词序概率确定方法及装置。该方法包括:确定源语句的候选翻译模式;针对每一候选翻译模式提取用于表征词序概率的特征量;根据预先获得的模型训练结果确定所述特征量的词序概率;根据所述特征量的词序概率,确定所述每一候选翻译模式的词序概率;根据所述候选翻译模式中词序概率的最大值,确定所述源语句的译文词序概率。本发明实施例通过在候选翻译模式中提取表征词序概率的特征量,进而确定源语句的译文词序概率,增加对调序过程的控制,提高了翻译模式选择的正确性,减少了调序错误的出现,由此改善了将源语句转换为目标语言数据处理过程的性能。

著录项

  • 公开/公告号CN103116575A

    专利类型发明专利

  • 公开/公告日2013-05-22

    原文格式PDF

  • 申请/专利权人 富士通株式会社;

    申请/专利号CN201110379623.0

  • 发明设计人 郑仲光;孟遥;于浩;

    申请日2011-11-16

  • 分类号G06F17/28;G06F17/30;

  • 代理机构北京集佳知识产权代理有限公司;

  • 代理人王萍

  • 地址 日本神奈川县

  • 入库时间 2024-02-19 18:53:05

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-11-05

    未缴年费专利权终止 IPC(主分类):G06F17/28 授权公告日:20160622 终止日期:20181116 申请日:20111116

    专利权的终止

  • 2016-06-22

    授权

    授权

  • 2013-06-19

    实质审查的生效 IPC(主分类):G06F17/28 申请日:20111116

    实质审查的生效

  • 2013-05-22

    公开

    公开

说明书

技术领域

本发明一般地涉及数据处理的技术领域,尤其是一种基于层次短语模型的译文词序概率确定方法及装置。

背景技术

层次短语模型(Hierarchical Phrase-based Model)是在将源语言转换为目标语言的数据处理过程中比较成熟的模型,该模型具有良好的短语调序能力,性能要好于传统的基于短语的模型(Phrase-based Model)。层次短语模型使用的翻译模式主要包括两种:包含非终结符X的模式和不包含X的模式。层次短语模型通过非终结符来扩展译文,通过源语言与目标语言之间的词对应关系来调序。

如图1所示,演示了一实例中层次短语模型的转换过程,例如,翻译过程,通过层次短语模型的一翻译模式,交换X1、X2的位置起到了调序的作用,从而得到了正确的源语言与目标语言之间的转换结果,在该例中即为翻译结果。

虽然层次短语模型有着很强的调序能力,但是现有的翻译过程中,由于该模型缺少对调序过程的控制,无法获得源语句的译文词序概率,容易导致翻译模式选择错误,进而造成一些调序错误频繁地出现。如图2所示,源语言本该使用模式<X1氨水溶液X2,X1 ammonia solution X2>按顺序翻译,由于选择了错误的翻译模式<X1氨水溶液X2,X2 X1ammonia solution>,将X2调序到最前面,导致翻译结果错误。

发明内容

有鉴于此,本发明实施例提供了一种基于层次短语模型的译文词序概率确定方法及装置,能够获得源语句的译文词序概率,进而可以增加翻译模式选择的正确性,提高从源语言到目标语言的转换过程的正确率,由此改善数据处理性能。

根据本发明实施例的一个方面,提供一种基于层次短语模型的译文词序概率确定方法,包括:

确定源语句的候选翻译模式;

针对每一候选翻译模式提取用于表征词序概率的特征量;

根据预先获得的模型训练结果确定所述特征量的词序概率;

根据所述特征量的词序概率,确定所述每一候选翻译模式的词序概率;

根据所述候选翻译模式中词序概率的最大值,确定所述源语句的译文词序概率。

根据本发明实施例的再一个方面,提供一种基于层次短语模型的译文词序概率确定装置,包括:

第一确定单元,配置为确定源语句的候选翻译模式;

特征量提取单元,配置为针对每一候选翻译模式提取用于表征词序概率的特征量;

第二确定单元,配置为根据预先获得的模型训练结果确定所述特征量的词序概率;

第三确定单元,配置为根据所述特征量的词序概率,确定所述每一候选翻译模式的词序概率;

概率确定单元,配置为根据所述候选翻译模式中词序概率的最大值,确定所述源语句的译文词序概率。

另外,根据本发明的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述基于层次短语模型的译文词序概率确定方法。

此外,根据本发明的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本发明的上述基于层次短语模型的译文词序概率确定方法。

根据本发明实施例的上述方法,通过在候选翻译模式中提取表征词序概率的特征量,进而确定源语句的译文词序概率,增加对调序过程的控制,提高了翻译模式选择的正确性,减少了调序错误的出现,从而提升源语句与目标语句之间进行转换这种数据处理过程的正确率,改善数据处理性能。

在下面的说明书部分中给出本发明实施例的其他方面,其中,详细说明用于充分地公开本发明实施例的优选实施例,而不对其施加限定。

附图说明

下面结合具体的实施例,并参照附图,对本发明实施例的上述和其它目的和优点做进一步的描述。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。

图1是示出现有技术中基于层次短语模型的翻译过程示意图;

图2是示出现有技术中翻译模式选择错误的示意图;

图3是示出作为本发明实施例提供的一种基于层次短语模型的译文词序概率确定方法的流程图;

图4是示出作为本发明实施例提供的一源语句的候选翻译模式示意图;

图5是示出作为本发明实施例提供一个翻译对的示意图;

图6是示出作为本发明实施例提供模型训练结果的获得方法流程图;

图7是示出作为本发明实施例提供的确定源语句译文词序概率的方法流程图;

图8是示出作为本发明实施例提供的未知译文的修正概率的计算方法流程图;

图9a是示出作为本发明实施例提供的实例中训练语句的示意图;

图9b是示出作为图4所示的源语句中未知译文的一个候选翻译模式示意图;

图10是示出作为本发明实施例提供的一种基于层次短语模型的译文词序概率确定装置的结构示意图;

图11是示出作为本发明实施例提供的模型训练单元的结构示意图;

图12是示出作为本发明实施例提供的概率确定单元的结构示意图;

图13是示出作为本发明实施例提供的第二计算子单元的结构示意图;

图14是示出作为本发明的实施例中所采用的信息处理设备的个人计算机的示例性结构的框图。

具体实施方式

下面参照附图来说明本发明的实施例。

本发明人在实现本发明的过程中发现,在利用现有技术的方法确定从源语句到目标语句的数据转换过程中的翻译模式时,至少存在以下问题:

层次短语模型中包含多种翻译模式,在确定适用于某一源语句的翻译模式时,现有技术中可以基于该源语句选择8个特征,例如语言模型、词汇惩罚等,根据该8个特征及各自的权重,可以衡量针对该源语句的各候选翻译模式中,哪一候选翻译模式的正确率最高,进而确定适用于该源语句的翻译模式,执行翻译。

然而,上述用于确定翻译模式的8个特征中缺少语言学知识的约束,不包含可以确定该源语句译文词序概率的特征,也即不能衡量一个模式的词序到底是不是正确的,因此,在确定源语句的翻译模式时,容易导致翻译模式选择错误,进而导致如图2所示的翻译结果错误。

因此,本发明实施例针对这个问题,提供了相应的解决方法。具体的,参见图3,本发明实施例提供了一种基于层次短语模型的译文词序概率确定方法,包括:

步骤301:确定源语句的候选翻译模式。

本步骤中首先根据层次短语模型中规定的翻译模式,列出该源语句所有可能的候选翻译模式。例如图4所示,源语句包含候选翻译模式一和候选翻译模式二。

步骤302:针对每一候选翻译模式提取用于表征词序概率的特征量。

其中,用于表征词序概率的特征量可以是指满足一定的词性、对齐关系,或者语言规则的特征量。

在具体实施例中,该表征词序概率的特征量可以是指满足一定约束条件(第一约束条件)的特征量,例如,在源语句中wi和wj必须都要有译文,其中wi(wj)可以代表一个字或一个词,或一个短语,甚至一个标点符号等;wi和wj要在一个翻译对中,翻译对表示:如果一段汉语[fi...fj]对应一段英语[em...en]的译文,汉英之间符合词对一致性齐约束,即所有的汉语[fi...fj]只能对应到[em...en],反之亦然,则[fi...fj]与[em...en]构成一个翻译对。如图5中虚线框内为一个翻译对;且wi和wj之间的距离要小于等于预设阈值T,该阈值T可以选择2、3等,其中,由于在句中wi和wj之间可能间隔有词或者短语或者标点符号,wi和wj之间的距离是指wi和wj在句中的位置之间的距离,例如T=3时,wi和wj之间间隔的词或者短语或者标点符号不能超过2个。

可替选地,该第一约束条件还可以是:wi和wj必须都要有译文(同上述约束中的wi和wj);如果wi或wj为助词“的”,则wi和wj之间的距离要小于等于预设阈值T(同上述约束中的T),或者如果wi和wj的词性为“动词+介词”或者“介词+动词”,则wi和wj之间的距离要小于等于预设阈值T,该阈值T可以选择2等。

满足上述约束条件的wi和wj即构成一个词对。

在从源语句的某一候选翻译模式中确定选择的词对后,获取词对的特征集合,所有词对的特征集合即构成该候选翻译模式中用于表征词序概率的特征量。其中,词对的特征集合中至少应包含该词对的词序(order),当然还可以包含词对中wi和wj的词性、译文等信息,如下表1所示,是从图5所示的语句中提取的词对“的”“聚腈”的特征集合,也即图5所示语句的一个特征量:

表1

  LW  RW  LT  RT  LP  RP  Order  的  聚腈  of  polymeric  u  nr  0  的  聚腈  of  polymeric  u  null  0  的  聚腈  of  polymeric  null  nr  0  的  聚腈  of  null  u  nr  0  的  聚腈  null  polymeric  u  nr  0  的  null  of  polymeric  u  nr  0  null  聚腈  of  polymeric  u  nr  0

其中,L,R表示左右,是指所选择的词对中的左右关系,例如“的”位于词对“的聚腈”的左侧,用LW表示,“聚腈”位于词对的右侧,用RW表示,W表示词,T表示译文,P表示词性,Order表示词序(顺序1,逆序0),该表的第一行为完整的特征量,其他行表示边缘特征,即包含“null”的特征。“null”表示值为空。

边缘特征是为了一方面,避免数据稀疏的问题,例如,一个词W在训练集中词性为“v”,但是测试的时候被标记为“n”(一个词可以有多个词性),此时就用“null”来替换“n”,这时就避免了因为在训练数据中查不到而得到概率为0的情况;另一方面,在后续计算过程中,对于源语句中的未知译文可以用“null”来代替,待译文扩展之后再进行修正。

在另一实施例中,提取的该特征量可以只包含第一行的信息。

步骤303:根据预先获得的模型训练结果确定特征量的词序概率。

在提取各候选翻译模式的特征量后,在本步骤中即需要查找模型训练结果,以确定各特征量的词序概率。

其中,该模型训练结果是预先根据训练语句统计获得的,其中记录了根据大量训练语句统计获得的各种词对的词序概率。具体的获得模型训练结果的过程请参见后续实施例的描述。

确定特征量的词序概率,也即根据模型训练结果中所列出的词对的词序概率确定从源语句中提取的各词对顺序或逆序的词序概率。可以根据各种合适的训练方法来获得模型训练结果。将在后续实施例的描述中给出一个训练方法的实例。

步骤304:根据特征量的词序概率,确定每一候选翻译模式的词序概率。

在确定各候选翻译模式中所有特征量的词序概率后,即可计算每一条候选翻译模式的词序概率。作为例子但非限定,在具体计算时可以采用以下方法:

分别计算每一候选翻译模式中各特征量的词序概率的连乘,并将连乘结果作为各候选翻译模式的词序概率。当然还可以采用其它如和、或增加权重来统计的方法等。

步骤305:根据候选翻译模式中词序概率的最大值,确定源语句的译文词序概率。

在获得每一候选翻译模式的词序概率后,根据其中的最大值确定源语句的译文词序概率。如果翻译模式中不存在未知译文,则可直接将该候选翻译模式中词序概率的最大值作为源语句的译文词序概率。

在确定源语句的译文词序概率后,可以直接将该词序概率所对应的候选翻译模式作为正确的翻译模式,优选地,也还可以根据源语句的译文词序概率及其权重,确定源语句的译文正确率,具体的,可以根据该译文词序概率及其权重(该权重值根据需要设定,并不限定具体数值),连同从该源语句中选择的8个特征(例如语言模型、词汇惩罚等)及各自的权重一并计算,根据计算结果来衡量该源语句按照词序概率所对应的候选翻译模式进行翻译的译文正确率。

容易理解,上述的翻译过程实际上就是一种从源语句到目标语句进行转换的数据处理过程。本发明实施例通过在候选翻译模式中提取表征词序概率的特征量,进而确定源语句的译文词序概率,增加对调序过程的控制,提高了翻译模式选择的正确性,减少了调序错误的出现,从而提升从源语句到目标语句进行转换这种数据处理过程的正确性,改善数据处理性能。

在执行上述实施例中的步骤303根据预先获得的模型训练结果确定特征量的词序概率之前,还需要首先获得模型训练结果,在本发明的一个示例性实施例中,如图6所示,该模型训练结果的获得方法可以包括:

步骤601,从训练语句中提取用于表征词序概率的特征量。

首先在执行本步骤之前,需要获得大量的训练语句,该训练语句来源于词对齐的双语语料库,其中,该双语语料库包含源语言(如汉语)和目标语言(如英语)两种语言,他们互为译文,词对齐是指语句的源语言和目标语言之间具有词的互译关系,如图5所示。

在获得大量的训练语句后,即可在所有训练语句中分别提取可以表征词序概率的特征量,其中,该表征词序概率的特征量与前述实施例步骤302中表征词序概率的特征量所包含的信息和形式相同,差别仅在于所提取的特征量需要满足的约束条件不同。

在本实施例中,可以从训练语句中提取满足第二约束条件(与第一约束条件相区别)的用于表征词序概率的特征量,其中第二约束条件例如可以是:训练语句中的词wi和wj必须有词对齐信息;wi和wj最多有一个词属于非终结符“X”,例如模式<X1氨水溶液X2,X1 ammoniasolution X2>,要计算词对“X1”和“氨水”,但是不计算词对“X1”和“X2”;wi和wj之间的距离要小于等于预设阈值T(可以与第一约束条件中的T相同)。

满足上述约束条件的wi和wj即构成一个词对。

在从练语句中确定选择的词对后,获取词对的特征集合,所有词对的特征集合即构成训练语句中用于表征词序概率的特征量。词对的特征集合中至少应包含该词对的词序(order),当然还可以包含词对中wi和wj的词性、译文等信息,类似于表1所示。

在获得所有训练语句中词对的特征集合后,即可根据相同词对的特征集合中的order值计算该词对顺序或逆序的概率,即为该词对的词序概率(也即该词对的特征量的词序概率)。具体的计算方法有多种,例如最大似然估计法、最大熵模型、支持向量机模型等。本实施例中以最大似然估计法为例进行说明,如步骤602。

步骤602,根据提取的特征量进行最大似然估计,获得训练语句中各特征量的词序概率。

本步骤中,按照最大似然估计方法(Maximum likelihood estimation)计算特征量的词序概率。

>Pre<orderi,j|φi,j>=count(orderi,j,φi,j)count(φi,j)>

其中,Pre表示词对(wi、wj)的为顺序或逆序的词序概率也即该词对特征量的词序概率。orderi,j表示词对(wi、wj)的顺序(记为1)或者逆序(记为0);表示词对(wi、wj)的特征集合。上述公式的含义即词对(wi、wj)的特征量词序概率(顺序或逆序)为该词对(wi、wj)特征集合中顺序或逆序的数量与该词对(wi、wj)特征集合总数量的比值。

按照上述算法,即可获得所有从训练语句中提取的所有特征量的词序概率。

步骤603,将训练语句中的各特征量及其词序概率作为模型训练结果。

在获得各特征量的词序概率后,即可获得模型训练结果,其中至少包含各特征量及其词序概率,当然也还可以包含其它信息如词性、译文等,该结果可以以列表的形式存储,以便于查找,例如表2所示,以一个特征量为例:

表2

在采用上述方法获得模拟训练结果后,在执行根据预先获得的模型训练结果确定特征量(提取自源语句候选翻译模式)的词序概率时,即可直接查找该模型训练结果,获得特征量的词序概率,例如,如果从源语句候选翻译模式中提取的特征量为“广谱”(order为1,当然还可以包含该词对的其它特征集合,此处不全部列出),则通过查找模型训练结果可以获得其中如表2所示的结果,即可获得该特征量“广谱”顺序的词序概率为87.7%,如果提取的特征量为“广谱”(order为0),也即提取的词对为“谱广”,则查找后可获得该特征量“广谱”(order为0),的逆序词序概率为12.3%。继而,根据上述特征量的词序概率结果,可以逐步获得候选翻译模式中词序概率的最大值。

在根据上述实施例获得候选翻译模式中词序概率的最大值后,在确定源语句的译文词序概率时,如果各候选翻译模式中尚存在未知译文(未知译文是指其中的词W的译文未知,且其中词W间的词序也未知,例如图4中,如果X2部分的译文未知,则需要在扩展出X2中的译文后,对源语句的候选翻译模式中词序概率的最大值进行修正,以最终的修正结果作为源语句的译文词序概率,则如图7所示,优选地,该确定源语句译文词序概率的方法可以包括:

步骤701,将候选翻译模式中词序概率的最大值作为初始概率。

在计算各候选翻译模式的词序概率时,可以计算每一候选翻译模式中各特征量的词序概率的连乘,并将连乘结果作为各候选翻译模式的词序概率,具体可以采用以下公式计算:

其中,Sre表示某一候选翻译模式的词序概率,n表示从该候选翻译模式中提取的特征量的数量,Pre与前述实施例公式中的Pre相同,其中,i、j为所提取的特征量中词对wi、wj的下标。

因此对各候选翻译模式中所有特征量的Pre执行上述计算即可获得该模式的词序概率Sre。

本实施例中,将各候选翻译模式中最大的词序概率作为初始概率,记为S1。

步骤702,计算未知译文的修正概率。

将本步骤中计算的未知译文的修正概率记为S2。后续实施例的描述将给出计算该S2的具体过程。

步骤703,采用修正概率对初始概率中包含未知译文的特征量的词序概率部分进行修正,将修正后的初始概率作为源语句的译文词序概率。

假设在计算获得初始概率S1时,其中包含未知译文的特征量的词序概率部分为S3,其中,m为该初始概率S1对应的候选翻译模式中所提取的特征量的数量,wx,wy为提取的特征量中的词对,x,y为词w的下脚标,仅为区别不同的词w,其中,wx,wy中至少有一个词是包含在未知译文中的。

则对初始概率的修正即计算S1-S3+S2,其结果即修正后的初始概率即可作为源语句最终的译文词序概率。

在本发明的一实施例中,该未知译文的修正概率可以通过如图8所述的方法进行计算,该方法可以包括:

步骤801,确定未知译文的译文词序概率。

本步骤中,在确定未知译文中各词W对应的译文后,该未知译文的译文词序概率可以采用与前述实施例类似的步骤301~305,只要将其中的“源语句”替换为“未知译文”即可:

首先,确定该未知译文的候选翻译模式,然后针对每一候选翻译模式提取用于表征词序概率的特征量;根据预先获得的模型训练结果确定特征量的词序概率;根据特征量的词序概率,确定每一候选翻译模式的词序概率;根据候选翻译模式中词序概率的最大值,确定该未知译文的译文词序概率,其具体过程请参见前述步骤301~305,此处不再赘述。该未知译文的译文词序概率不同于上述步骤703中的“初始概率中包含未知译文的特征量的词序概率部分”,本步骤中计算未知译文的译文词序概率时,所涉及的特征量均提取自未知译文部分。

本实施例中,假定该未知译文的候选翻译模式中不再包含未知译文,则直接确定该未知译文的候选翻译模式中词序概率的最大值为该未知译文的译文词序概率,记为S21。

步骤802,将所确定的词序概率的最大值所对应的未知译文的候选翻译模式扩展至初始概率对应的源语句的候选翻译模式中,计算包含未知译文的特征量的词序概率部分,记为扩展后的词序概率。

将S21对应的未知译文的候选翻译模式扩展至初始概率S1对应的源语句的候选翻译模式中,例如,将图4中的未知译文X2部分替换为该X2的S21对应的候选翻译模式,然后应用到图4所示源语句的S1对应的候选翻译模式中。然后,重新计算包含未知译文的特征量的词序概率部分,即为其中,m为该初始概率S1对应的候选翻译模式中所提取的特征量的数量,wx,wy为提取的特征量中的词对,x,y为词w的下脚标,仅为区别不同的词w,其中,wx,wy中至少有一个词是包含在未知译文中的。该S22与前述S3的区别在于,在计算S3时,未知译文的词序概率部分是未知的,而在计算S22时,未知译文的词序概率部分已知,在具体计算时,基于相同的词对wx,wy,S3中Pre的值与S22中Pre的值不同。

步骤803,将未知译文的词序概率与扩展后的词序概率的和作为修正概率。

将前述获得的未知译文的译文词序概率S21与扩展后的词序概率S22相加,其和即可作为修正概率,即前述S2。

在获得上述S1、S2、S3后,即可对初始概率进行修正,计算S1-S3+S2,将其结果即修正后的概率作为源语句最终的译文词序概率。

下面以一具体实例,对上述方法过程进行说明。该实例仍然以获得图4所示的源语句的译文词序概率为例进行说明。

S1,获得模型训练结果。

其中,训练语句有四句,如图9a所示。这些训练语句具有源语言与目标语言,且具有词对齐关系。

S11,基于该四句训练语句,提取满足第二约束条件的用于表征词序概率的特征量。

设定第二约束条件中的阈值T=2,以左侧词为溶液的特征量,即lw=溶液的特征量为例,则可从图9a所示的训练语句中提取如下表3所示的特征集合:

表3

每一条完整的模式都可以得到相应的边缘特征,上表中只列出了rt=null(表示右边的词译文为空)时的边缘特征,后面计算会用到。

S12,根据提取的特征量进行最大似然估计,获得训练语句中各特征量的词序概率。

S13,按照最大似然估计方法计算特征量的词序概率。

>Pre<orderi,j|φi,j>=count(orderi,j,φi,j)count(φi,j)>

S14,将训练语句中的各特征量及其词序概率作为模型训练结果。

统计后即可获得如下表4所示的模型训练结果,该结果例如可以下述列表4的形式存储,其中,仅以lw=溶液的结果为例。

表4

上表仅是举例,并不一定仅包含上述内容。

上述获得模型训练结果的过程可以首先执行,也可以在后续根据模型训练结果确定特征量的词序概率之前的任意时刻执行。

S2,确定源语句的候选翻译模式。

如图4所示的实施例中,根据层次短语模型,该源语句具有两种候选翻译模式,图左侧为模式一,右侧为模式二,其中X2部分(、碳酸氢钠水溶液)为未知译文。

S3,针对每一候选翻译模式提取满足第一约束条件的用于表征词序概率的特征量。

设定第一约束条件中的阈值T=2,则提取模式一的特征量如下:

lw=、rw=氨水lp=w rp=n lt=null rt=ammonia  order=1

lw=、rw=溶液lp=w rp=n lt=null rt=solution order=1

lw=氨水rw=溶液lp=n rp=n lt=ammonia rt=ammonia order=1

lw=氨水rw=、lp=n rp=w lt=ammonia rt=null  order=0

......(其中lw不为溶液的特征量仅以以上列出的为例,不再一一列举)

lw=溶液rw=、lp=n rp=w lt=solution rt=null  order=0

lw=溶液rw=碳酸氢钠lp=n rp=n lt=solution rt=null order=0

提取模式二的特征量如下:

lw=、rw=氨水lp=w rp=n lt=null rt=ammonia order=1

lw=、rw=溶液lp=w rp=n lt=null rt=solution  order=1

lw=氨水rw=溶液lp=n rp=n lt=ammonia rt=ammonia order=1

lw=氨水rw=、lp=n rp=w lt=ammonia rt=null  order=1

......(其中lw不为溶液的特征量仅以以上列出的为例,不再一一列举)

lw=溶液rw=、lp=n rp=w lt=solution rt=null  order=1

lw=溶液rw=碳酸氢钠lp=n rp=n lt=solution rt=null order=1

S4,根据预先获得的模型训练结果确定特征量的词序概率。

查找表4中的模拟训练结果,以获得上述各模式中提取的特征量的词序概率Pre(order|φ)。

例如,模式一中的特征量:lw=溶液rw=碳酸氢钠lp=n rp=n lt=solutionrt=null order=0,根据表4可知,其词序概率为:

Pre(0|lw=溶液rw=碳酸氢钠lp=n rp=n lt=solution rt=null)=0.33

模式二中的特征量:lw=溶液rw=碳酸氢钠lp=n rp=n lt=solutionrt=null order=1,根据表4可知,其词序概率为:

Pre(1|lw=溶液rw=碳酸氢钠lp=n rp=n lt=solution rt=null)=0.67

如果查询的时候模拟训练结果的表里没有,则可设置默认值:顺序的词序概率为0.9,逆序的词序概率为0.1。

例如,模式一中的特征量lw=溶液rw=、lp=n rp=w lt=solution rt=nullorder=0,表4中没有对应的特征量,则其词序概率可默认为:

Pre(0|lw=溶液rw=、lp=n rp=w lt=solution rt=null)=0.1

根据查询模拟训练结果可知,模式一中各特征量的词序概率为:

Pre(1|lw=、rw=氨水lp=w rp=n lt=null rt=ammonia)

Pre(1|lw=、rw=溶液lp=w rp=n lt=null rt=solution)

Pre(1|lw=氨水rw=溶液lp=n rp=n lt=ammonia rt=ammonia)

Pre(0|lw=氨水rw=、lp=n rp=w lt=ammonia rt=null)

......(其中lw不为溶液的特征量的词序概率仅以以上列出的为例,不再一一列举)

Pre(0|lw=溶液rw=、lp=n rp=w lt=solution rt=null)=0.1

Pre(0|lw=溶液rw=碳酸氢钠lp=n rp=n lt=solution rt=null)=0.33(其中,

由于碳酸氢钠属于未知译文X2部分,所以rt未知)

模式二中各特征量的词序概率为:

Pre(1|lw=、rw=氨水lp=w rp=n lt=null rt=ammonia)

Pre(1|lw=、rw=溶液lp=w rp=n lt=null rt=solution)

Pre(1|lw=氨水rw=溶液lp=n rp=n lt=ammonia rt=solution)

Pre(1|lw=氨水rw=、lp=n rp=w lt=ammonia rt=null)

......(其中lw不为溶液的特征量的词序概率仅以以上列出的为例,不再一一列举)

Pre(1|lw=溶液rw=、lp=n rp=w lt=solution rt=null)=1

Pre(1|lw=溶液rw=碳酸氢钠lp=n rp=n lt=solution rt=null)=0.67(其中,由于碳酸氢钠属于未知译文X2部分,所以rt未知)

其中,模式一、二中不包含“null”的特征量的词序概率相同(结果未列出)。这里只对应给出“lw=溶液”两条特征量的概率,其他含有“null”的特征量的计算过程是一样的。

S5,根据特征量的词序概率,确定每一候选翻译模式的词序概率。

根据前述公式:即可计算获得每一候选翻译模式的词序概率。

候选翻译模式一的词序概率为:Sre(1)=log(lw不为溶液的特征量概率乘积)+log(0.1)+log(0.33)

候选翻译模式二的词序概率为:Sre(2)=log(lw不为溶液的特征量概率乘积)+log(1)+log(0.67)

由于如图4所示的源语句的候选翻译模式中,存在未知译文X2,所以在获得各候选翻译模式的词序概率后执行以下过程。

S6,将候选翻译模式中词序概率的最大值作为初始概率。

假设在两个候选翻译模式的词序概率中,Sre(1)<Sre(2),则将模式二的词序概率Sre(2)作为初始概率。为便于理解,以下修正过程仅以lw=溶液的特征量的词序概率为例,其中,log(1)+log(0.67)即为包含未知译文X2部分的词序概率Sre(未知)。

S7,计算未知译文X2的修正概率。

S71,首先确定未知译文X2的译文词序概率。

该过程即以未知译文作为源语句采用前述步骤获得未知译文的词序概率,包括:

S711,确定未知译文X2的候选翻译模式,如图9b所示为其中一个候选翻译模式。

S712,针对每一候选翻译模式提取X2中用于表征词序概率的特征量,以图9b所示的候选翻模式则为例,取T=2,所提取的特征量包括:

lw=、rw=碳酸氢钠lp=w rp=n lt=,rt=sodium order=1

lw=、rw=碳酸氢钠lp=w rp=n lt=,rt=bicarbonate order=1

lw=、rw=水溶液lp=w rp=n lt=,rt=aqueous order=1

lw=碳酸氢钠rw=水溶液lp=n rp=n lt=sodium rt=aqueous order=0

lw=碳酸氢钠rw=水溶液lp=n rp=n lt=bicarbonate rt=aqueous

order=0

以上特征量仅提取自X2部分与图4所示源语句中的其它部分无关。

S713,根据预先获得的模型训练结果确定特征量的词序概率。

同样查找表4中的模拟训练结果,以获得上述各模式中提取的特征量的词序概率Pre(order|φ),此处不再一一列举。

S714,根据特征量的词序概率,确定X2的每一候选翻译模式的词序概率。

根据前述公式:即可计算获得X2中每一候选翻译模式的词序概率。

该未知译文X2中不存在未知译文,所以可直接将X2的候选翻译模式中词序概率的最大值作为该未知译文的译文词序概率,记为Sre(X2),假设该最大值所对应的候选翻译模式即为图9b所示的模式。

S72,将该图9b所示的模式扩展至Sre(2)对应的模式中,也即图4所示的模式二中。

S73,计算扩展后的模式二中包含未知译文X2的特征量的词序概率部分,也即重新提取模式二中包含未知译文X2的特征量,并计算该部分特征量的词序概率部分。扩展后,在模式二中可提取的包含X2并且“lw=溶液”的特征量有:

lw=溶液rw=、lp=n rp=w lt=solution rt=、order=1

lw=溶液rw=碳酸氢钠lp=n rp=n lt=solution rt=sodium order=1

lw=溶液rw=碳酸氢钠lp=n rp=n lt=solution rt=bicarbonate order=1

查找表4所示的模拟训练结果,可知该部分特征量的词序概率为:

Pre(1|lw=溶液rw=、lp=n rp=w lt=solution rt=、)=1

Pre(1|lw=溶液rw=碳酸氢钠lp=n rp=n lt=solution rt=sodium)=0.67

Pre(1|lw=溶液rw=碳酸氢钠lp=n rp=n lt=solution

rt=bicarbonate)=0.67

则该扩展后的词序概率即为(lw=溶液部分):

Sre(扩展)=log(1)+log(0.67)+log(0.67)

S74,将未知译文的译文词序概率Sre(X2)与扩展后的词序概率Sre(扩展)的和作为修正概率。

S8,采用修正概率对初始概率中包含未知译文的特征量的词序概率部分进行修正,将修正后的初始概率作为源语句的译文词序概率。

采用修正概率Sre(X2)+Sre(扩展),对初始概率Sre(2)中包含未知译文的特征量的词序概率部分Sre(未知)进行修正,修正后的初始概率即为源语句最终的译文词序概率。

最终,图4所示的源语句的译文词序概率(仅对应lw=溶液部分)即为:

Sre=Sre(2)-Sre(未知)+Sre(扩展)+Sre(X2)=Sre(2)-log(1)-log(0.67)+log(1)+log(0.67)+log(0.67)+Sre(X2)

在通过上述过程确定了源语句的译文词序概率后,后续即可根据源语句的译文词序概率及其权重,连同从该源语句中选择的8个特征(例如语言模型、词汇惩罚等)及各自的权重一并计算,根据计算结果来确定源语句的译文正确率。

以上是对本发明方法的介绍,下面对实现上述方法的装置进行介绍。

参见图10,为本发明实施例一种基于层次短语模型的译文词序概率确定装置的结构示意图。

该装置可以包括:

第一确定单元1001,配置为确定源语句的候选翻译模式。

特征量提取单元1002,配置为针对每一候选翻译模式提取用于表征词序概率的特征量。

第二确定单元1003,配置为根据预先获得的模型训练结果确定所述特征量的词序概率。

第三确定单元1004,配置为根据所述特征量的词序概率,确定所述每一候选翻译模式的词序概率。

概率确定单元1005,配置为根据所述候选翻译模式中词序概率的最大值,确定所述源语句的译文词序概率。

本发明实施例装置通过上述单元在候选翻译模式中提取表征词序概率的特征量,进而确定源语句的译文词序概率,增加对调序过程的控制,提高了翻译模式选择的正确性,减少了调序错误的出现,提升翻译结果的正确率,改善从源语句到目标语句的转换这种数据处理的性能。

在本发明的另一实施例中,特征量提取单元1002,可以具体配置为针对每一候选翻译模式提取满足第一约束条件的用于表征词序概率的特征量。

在本发明的另一实施例中,第三确定单元1004,可以具体配置为计算每一候选翻译模式中各特征量的词序概率的连乘,并将连乘结果作为各候选翻译模式的词序概率。

在本发明的另一实施例中,该装置还包括模型训练单元,如图11所示为该模型训练单元的结构示意图。

该模型训练单元可以包括:

提取子单元1101,配置为从训练语句中提取用于表征词序概率的特征量。

第一计算子单元1102,配置为根据提取的特征量进行最大似然估计,获得所述训练语句中各特征量的词序概率。

第一确定子单元1103,配置为将所述训练语句中的各特征量及其词序概率作为模型训练结果。

其中,提取子单元1101,还可以具体配置为从训练语句中提取满足第二约束条件的用于表征词序概率的特征量。

在本发明的另一实施例中,概率确定单元可以具体包括如图12所示的结构:

第二确定子单元1201,配置为当所述候选翻译模式中还包含未知译文时,将所述候选翻译模式中词序概率的最大值作为初始概率。

第二计算子单元1202,配置为计算所述未知译文的修正概率。

修正子单元1203,配置为采用所述修正概率对所述初始概率中包含所述未知译文的特征量的词序概率部分进行修正,将修正后的初始概率作为所述源语句的译文词序概率。

在本发明的另一实施例中,第二计算子单元又可以包括如图13所示的结构:

概率确定模块1301,配置为将所述未知译文作为该装置中所述的源语句,采用前述装置的第一确定单元、特征量提取单元、第二确定单元、第三确定单元、概率确定单元,确定所述未知译文的译文词序概率,具体的,配置为确定未知译文的候选翻译模式;针对每一候选翻译模式提取用于表征词序概率的特征量;根据预先获得的模型训练结果确定所述特征量的词序概率;根据所述特征量的词序概率,确定所述每一候选翻译模式的词序概率;根据所述候选翻译模式中词序概率的最大值,确定所述未知译文的译文词序概率。

计算模块1302,配置为将所确定的词序概率的最大值所对应的未知译文的候选翻译模式扩展至所述初始概率对应的源语句的候选翻译模式中,计算包含所述未知译文的特征量的词序概率部分,记为扩展后的词序概率。

修正确定模块1303,配置为将所述未知译文的词序概率与所述扩展后的词序概率的和作为修正概率。

在本发明的另一实施例中,上述装置还可以包括正确率确定单元,配置为根据所述源语句的译文词序概率及其权重,确定所述源语句的译文正确率。

以上装置中各单元的具体实现方式请参照前述方法实施例的相应描述,此处不再赘述。

另外,还应该指出的是,上述系列处理和装置也可以通过硬件和/或软件和/或固件实现。在通过软件和/或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图14所示的通用个人计算机1400安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。

在图14中,中央处理单元(CPU)1401根据只读存储器(ROM)1402中存储的程序或从存储部分1408加载到随机存取存储器(RAM)1403的程序执行各种处理。在RAM 1403中,也根据需要存储当CPU 1401执行各种处理等等时所需的数据。

CPU 1401、ROM 1402和RAM 1403经由总线1204彼此连接。输入/输出接口1405也连接到总线1404。

下述部件连接到输入/输出接口1405:输入部分1406,包括键盘、鼠标等等;输出部分1407,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等等,和扬声器等等;存储部分1408,包括硬盘等等;和通信部分1409,包括网络接口卡比如LAN卡、调制解调器等等。通信部分1409经由网络比如因特网执行通信处理。

根据需要,驱动器1410也连接到输入/输出接口1405。可拆卸介质1411比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1410上,使得从中读出的计算机程序根据需要被安装到存储部分1408中。

在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1411安装构成软件的程序。

本领域的技术人员应当理解,这种存储介质不局限于图14所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1411。可拆卸介质1411的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1402、存储部分1408中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。

还需要指出的是,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

关于包括以上实施例的实施方式,还公开下述附记:

附记1.一种基于层次短语模型的译文词序概率确定方法,包括:

确定源语句的候选翻译模式;

针对每一候选翻译模式提取用于表征词序概率的特征量;

根据预先获得的模型训练结果确定所述特征量的词序概率;

根据所述特征量的词序概率,确定所述每一候选翻译模式的词序概率;

根据所述候选翻译模式中词序概率的最大值,确定所述源语句的译文词序概率。

附记2.根据附记1所述的方法,其中,所述针对每一候选翻译模式提取用于表征词序概率的特征量,包括:

针对每一候选翻译模式提取满足第一约束条件的用于表征词序概率的特征量。

附记3.根据附记1所述的方法,其中,所述模型训练结果通过以下方式获得:

从训练语句中提取用于表征词序概率的特征量;

根据提取的特征量进行最大似然估计,获得所述训练语句中各特征量的词序概率;

将所述训练语句中的各特征量及其词序概率作为模型训练结果。

附记4.根据附记3所述的方法,其中,所述从训练语句中提取用于表征词序概率的特征量,包括:

从训练语句中提取满足第二约束条件的用于表征词序概率的特征量。

附记5.根据附记1所述的方法,其中,所述根据所述特征量的词序概率,确定所述每一候选翻译模式的词序概率,包括:

计算每一候选翻译模式中各特征量的词序概率的连乘,并将连乘结果作为各候选翻译模式的词序概率。

附记6.根据附记1所述的方法,其中,所述根据所述候选翻译模式中词序概率的最大值,确定所述源语句的译文词序概率,包括:

当所述候选翻译模式中还包含未知译文时,将所述候选翻译模式中词序概率的最大值作为初始概率;

计算所述未知译文的修正概率;

采用所述修正概率对所述初始概率中包含所述未知译文的特征量的词序概率部分进行修正,将修正后的初始概率作为所述源语句的译文词序概率。

附记7.根据附记6所述的方法,其中,所述计算所述未知译文的修正概率,包括:

确定未知译文的候选翻译模式;

针对每一候选翻译模式提取用于表征词序概率的特征量;

根据预先获得的模型训练结果确定所述特征量的词序概率;

根据所述特征量的词序概率,确定所述每一候选翻译模式的词序概率;

根据所述候选翻译模式中词序概率的最大值,确定所述未知译文的译文词序概率;

将所确定的译文词序概率的最大值所对应的未知译文的候选翻译模式扩展至所述初始概率对应的源语句的候选翻译模式中,计算包含所述未知译文的特征量的词序概率部分,记为扩展后的词序概率;

将所述未知译文的词序概率与所述扩展后的词序概率的和作为修正概率。

附记8.根据附记1至7中任意一项所述的方法,其中,所述方法还包括:

根据所述源语句的译文词序概率及其权重,确定所述源语句的译文正确率。

附记9.一种基于层次短语模型的译文词序概率确定装置,包括:

第一确定单元,配置为确定源语句的候选翻译模式;

特征量提取单元,配置为针对每一候选翻译模式提取用于表征词序概率的特征量;

第二确定单元,配置为根据预先获得的模型训练结果确定所述特征量的词序概率;

第三确定单元,配置为根据所述特征量的词序概率,确定所述每一候选翻译模式的词序概率;

概率确定单元,配置为根据所述候选翻译模式中词序概率的最大值,确定所述源语句的译文词序概率。

附记10.根据附记9所述的装置,其中,

所述特征量提取单元,配置为针对每一候选翻译模式提取满足第一约束条件的用于表征词序概率的特征量。

附记11.根据附记9所述的装置,其中,所述装置还包括模型训练单元,所述模型训练单元包括:

提取子单元,配置为从训练语句中提取用于表征词序概率的特征量;

第一计算子单元,配置为根据提取的特征量进行最大似然估计,获得所述训练语句中各特征量的词序概率;

第一确定子单元,配置为将所述训练语句中的各特征量及其词序概率作为模型训练结果。

附记12.根据附记11所述的装置,其中,

所述提取子单元,配置为从训练语句中提取满足第二约束条件的用于表征词序概率的特征量。

附记13.根据附记9所述的装置,其中,

所述第三确定单元,配置为计算每一候选翻译模式中各特征量的词序概率的连乘,并将连乘结果作为各候选翻译模式的词序概率。

附记14.根据附记9所述的装置,其中,所述概率确定单元包括:

第二确定子单元,配置为当所述候选翻译模式中还包含未知译文时,将所述候选翻译模式中词序概率的最大值作为初始概率;

第二计算子单元,配置为计算所述未知译文的修正概率;

修正子单元,配置为采用所述修正概率对所述初始概率中包含所述未知译文的特征量的词序概率部分进行修正,将修正后的初始概率作为所述源语句的译文词序概率。

附记15.根据附记14所述的装置,其中,所述第二计算子单元包括:

概率确定模块,配置为确定未知译文的候选翻译模式;针对每一候选翻译模式提取用于表征词序概率的特征量;根据预先获得的模型训练结果确定所述特征量的词序概率;根据所述特征量的词序概率,确定所述每一候选翻译模式的词序概率;根据所述候选翻译模式中词序概率的最大值,确定所述未知译文的译文词序概率;

计算模块,配置为将所确定的译文词序概率的最大值所对应的未知译文的候选翻译模式扩展至所述初始概率对应的源语句的候选翻译模式中,计算包含所述未知译文的特征量的词序概率部分,记为扩展后的词序概率;

修正确定模块,配置为将所述未知译文的词序概率与所述扩展后的词序概率的和作为修正概率。

附记16.根据附记9至15中任意一项所述的装置,其中,所述装置还包括:

正确率确定单元,配置为根据所述源语句的译文词序概率及其权重,确定所述源语句的译文正确率。

虽然已经详细说明了本发明及其优点,但是应当理解在不脱离由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本发明实施例的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号