首页> 中国专利> 训练双语词对齐模型的方法和装置、双语词对齐方法和装置

训练双语词对齐模型的方法和装置、双语词对齐方法和装置

摘要

本发明提供了训练双语词对齐模型的方法和装置、双语词对齐方法和装置。本发明的训练双语词对齐模型的方法,包括:利用第一和第二语种的双语语料,训练第一和第二语种的双语词对齐模型;利用第二和第三语种的双语语料,训练第二和第三语种的双语词对齐模型;以及根据上述第一和第二语种的双语词对齐模型以及上述第二和第三语种的双语词对齐模型,估计第一和第三语种的双语词对齐模型。

著录项

  • 公开/公告号CN101030196A

    专利类型发明专利

  • 公开/公告日2007-09-05

    原文格式PDF

  • 申请/专利权人 株式会社东芝;

    申请/专利号CN200610058067.6

  • 发明设计人 王海峰;刘占一;吴华;

    申请日2006-02-28

  • 分类号G06F17/28;

  • 代理机构北京市中咨律师事务所;

  • 代理人李峥

  • 地址 日本东京都

  • 入库时间 2023-12-17 19:03:16

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-02-28

    未缴年费专利权终止 IPC(主分类):G06F17/28 专利号:ZL2006100580676 申请日:20060228 授权公告日:20100512

    专利权的终止

  • 2010-05-12

    授权

    授权

  • 2007-10-31

    实质审查的生效

    实质审查的生效

  • 2007-09-05

    公开

    公开

说明书

技术领域

本发明涉及信息处理技术,具体地,涉及自然语言处理中双语词对齐的技术和统计机器翻译技术。

背景技术

词对齐在自然语言处理中被广泛地使用。现有的词对齐技术,通常使用统计词对齐模型,把双语句子中互为译文的词对对应起来。统计词对齐模型包含用于确定双语句子中互为译文的词对的统计信息。

在P.F.Brown、S.A.Della Pietra、V.J.Della Pietra和R.Mercer于1993年发表的文章“The Mathematics of Statistical Machine Translation:Parameter Estimation”(发表于Computational Linguistics,19(2):263-311)中描述了关于统计机器翻译模型和统计词对齐模型以及相应的参数估计方法。

统计词对齐模型需要有足够的双语语料来训练参数。如果训练语料不充分,那么得到的参数将不能产生高质量的对齐结果。但是,对于某些语言对来说,可用的双语语料更少,所以双语语料的数量制约着统计词对齐模型的质量和阻碍了统计词对齐模型的进一步应用。

发明内容

为了解决上述现有技术中存在的问题,本发明提供了利用中间语言的训练双语词对齐模型的方法和装置、双语词对齐方法和装置。

根据本发明的一个方面,提供了一种训练双语词对齐模型的方法,包括:利用第一和第二语种的双语语料,训练第一和第二语种的双语词对齐模型;利用第二和第三语种的双语语料,训练第二和第三语种的双语词对齐模型;以及根据上述第一和第二语种的双语词对齐模型以及上述第二和第三语种的双语词对齐模型,估计第一和第三语种的双语词对齐模型。

根据本发明的另一个方面,提供了一种双语词对齐方法,包括:利用前面所述的训练双语词对齐模型的方法,根据第一和第二语种的双语语料以及第二和第三语种的双语语料,获得第一和第三语种的双语词对齐模型;以及利用第一和第三语种的双语词对齐模型,对第一和第三语种的双语句子对进行词对齐。

根据本发明的另一个方面,提供了一种训练双语词对齐模型的装置,包括:第一训练单元,其利用第一和第二语种的双语语料,训练第一和第二语种的双语词对齐模型;第二训练单元,其利用第二和第三语种的双语语料,训练第二和第三语种的双语词对齐模型;以及模型估计单元,其根据上述第一和第二语种的双语词对齐模型以及上述第二和第三语种的双语词对齐模型,估计第一和第三语种的双语词对齐模型。

根据本发明的另一个方面,提供了一种双语词对齐装置,其特征在于,包括:前面所述的训练双语词对齐模型的装置,用于根据第一和第二语种的双语语料以及第二和第三语种的双语语料,获得第一和第三语种的双语词对齐模型;并且利用由上述训练双语词对齐模型的装置获得的第一和第三语种的双语词对齐模型,对第一和第三语种的双语句子对进行词对齐。

附图说明

相信通过以下结合附图对本发明具体实施方式的说明,能够使人们更好地了解本发明上述的特点、优点和目的。

图1是根据本发明一个实施例的训练双语词对齐模型的方法的流程图;

图2是根据本发明一个实施例的双语词对齐方法的流程图;

图3是根据本发明一个实施例的训练双语词对齐模型的装置的方框图;以及

图4是根据本发明一个实施例的双语词对齐装置的方框图。

具体实施方式

下面就结合附图对本发明的各个优选实施例进行详细的说明。

图1是根据本发明一个实施例的训练双语词对齐模型的方法的流程图。

如图1所示,首先在步骤101,利用第一和第二语种的双语语料,训练第一和第二语种的双语词对齐模型。在本实施例中的双语词对齐模型包括词汇翻译子模型、位置扭曲子模型和词汇衍生子模型。

其中,词汇翻译子模型是词汇翻译概率的集合,词汇翻译概率p(ws|wt)是目标语言词汇wt翻译到源语言语词汇ws的概率。

位置扭曲子模型是位置扭曲概率的集合,位置扭曲概率p(j|i,l,m)是给定源语言句子的长度m,目标语句子的长度l的情况下,目标语言句子中第ith个位置对应到源语言句子中第jth的位置的概率。

词汇衍生子模型是词汇衍生概率的集合,词汇衍生概率p(i|wt)是目标语言词汇wt对应i个源语言词汇的概率。

在本步骤中,利用统计方法,根据第一和第二语种的双语语料,训练第一和第二语种的双语词对齐模型,即,第一和第二语种的词汇翻译子模型、位置扭曲子模型和词汇衍生子模型。

接着,在步骤105,利用第二和第三语种的双语语料,训练第二和第三语种的双语词对齐模型。与前面步骤101类似,在本步骤中,利用统计方法,根据第二和第三语种的双语语料,训练第二和第三语种的双语词对齐模型,即,第二和第三语种的词汇翻译子模型、位置扭曲子模型和词汇衍生子模型。

在本实施例中,假定存在着大量、准确的第一和第二语种的双语语料以及第二和第三语种的双语语料,但是缺乏第一和第三语种的双语语料。这样,通过前面的步骤101和105,可以利用充足的第一和第二语种的双语语料以及第二和第三语种的双语语料获得质量好的第一和第二语种的双语词对齐模型以及第二和第三语种的双语词对齐模型。

接着,在步骤110,根据第一和第二语种的双语词对齐模型以及第二和第三语种的双语词对齐模型,估计第一和第三语种的双语词对齐模型。

在本实施例中,需要分别估计词汇翻译子模型、位置扭曲子模型和词汇衍生子模型,具体地,包括如下步骤:

利用第一和第二语种的词汇翻译子模型以及第二和第三语种的词汇翻译子模型,估计第一和第三语种的词汇翻译子模型;

利用第一和第二语种的位置扭曲子模型以及第二和第三语种的位置扭曲子模型,估计第一和第三语种的位置扭曲子模型;以及

利用第一和第二语种的词汇衍生子模型以及/或者第二和第三语种的词汇衍生子模型、第一和第二语种的词汇翻译子模型以及/或者第二和第三语种的词汇翻译子模型,估计第一和第三语种的词汇衍生子模型。

下面,就详细说明上述这些子模型的估计过程。

1)首先,关于第一和第三语种的词汇翻译子模型的估计

当设pCE(wc|we)是第二语种的词we到第一语种的词wc的翻译概率,

pEJ(we|wj)是第三语种的词wj到第二语种的词we的翻译概率,

C(wj,wc)是第一语种的词wc和第三语种的词wj的同现次数,

p(wc|wj)是第三语种的词wj到第一语种的词wc的翻译概率时,

利用公式 >>C>>(>>w>j>>,>>w>c>>)>>=>>Σ>>w>e> >>p>EJ>>>(>>w>e>>|>>w>j>>)>>*>>p>CE>>>(>>w>c>>|>>w>e>>)>>>s>收集第一语种的词wc和第三语种的词wj的同现次数;以及

利用公式 >>p>>(>>w>c>>|>>w>j>>)>>=>>>C>>(>>w>j>>,>>w>c>>)>>>>>Σ>>w>>c>′>>>>C>>(>>w>j>>,>>w>>c>′>>>)>>>>>s>计算第三语种的词wj到第一语种的词wc的翻译概率p(wc|wj)。

2)其次,关于第一和第三语种的位置扭曲子模型的估计

当设pEJ(k|i,l,m′)是第二语种的句子长度为m’、第三语种的句子长度为l、第ith个第三语种的词对应到第kth个第二语种的词的概率,

pCE(j|k,m′,m)是第一语种的句子长度为m、第二语种的句子长度为m’、第kth个第二语种的词对应到第jth个第一语种的词的概率,

C(j,i,l,m)和pCJ(j|i,l,m)分别是第一语种的句子长度为m、第三语种的句子长度为l、第ith个第三语种的词对应到第jth个第一语种的词的同现次数和概率时,

利用公式C(j,i,l,m)=∑k,m′pEJ(k|i,l,m′)*pCE(j|k,m′,m)收集第一语种的句子长度为m、第三语种的句子长度为l、第ith个第三语种的词对应到第jth个第一语种的词的同现次数;以及

利用公式 >>>p>CJ>>>(>j>|>i>,>l>,>m>)>>=>>>C>>(>j>,>i>,>l>,>m>)>>>>>Σ>>j>′>>>C>>(>>j>′>>,>i>,>l>,>m>)>>>>>s>计算第一语种的句子长度为m、第三语种的句子长度为l、第ith个第三语种的词对应到第jth个第一语种的词的位置扭曲概率。

3)最后,关于第一和第三语种的词汇衍生子模型的估计

当设pJE(we|wj)是第三语种的词wj到第二语种的词we的翻译概率,

pCE(i|we)是第二语种的词we对应i个第一语种的词的概率,

C(i,wj)和p(i|wj)分别是第三语种的词wj衍生出i个第一语种的词的同现次数和概率时,

利用公式获得第三语种的词wj衍生出i个第一语种的词的同现次数;以及

利用公式计算第三语种的词wj衍生出i个第一语种的词的词汇衍生概率。

通过以上描述可知,对于由于训练语料不充分而无法得到高质量的词对齐模型的问题,本实施例的训练双语词对齐模型的方法可以利用一个中间语种来解决。例如,通常情况下,由于中文和日文的双语语料比较少,因此制约着中文和日文的统计词对齐模型的质量。采用本实施例的方法,可以利用语料丰富的中间语种,如英文,来解决这个问题。因为存在着大量、丰富的中文和英文的双语语料以及日文和英文的双语语料,因此可以获得高质量的中文和英文的词对齐模型以及日文和英文的词对齐模型,进而,利用中文和英文的词对齐模型以及日文和英文的词对齐模型,就可以估计出中文和日文的词对齐模型。

当然,本发明并不限于中文、英文和日文的情况,任何语种都可以作为前面实施例中的第一、第二和第三语种。只是通常情况下,作为中间语种的第二语种,应当考虑语料丰富的国际性的语言,例如,英语、法语或西班牙语等。

在同一发明构思下,图2是根据本发明一个实施例的双语词对齐方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。

如图2所示,首先在步骤101,利用第一和第二语种的双语语料,训练第一和第二语种的双语词对齐模型。接着,在步骤105,利用第二和第三语种的双语语料,训练第二和第三语种的双语词对齐模型。接着,在步骤110,根据第一和第二语种的双语词对齐模型以及第二和第三语种的双语词对齐模型,估计第一和第三语种的双语词对齐模型。

以上步骤101、105和110与前面图1所示的实施例基本相同,在此不再重复。

然后,在步骤215,利用估计出的第一和第三语种的双语词对齐模型,对第一和第三语种的双语句子对进行词对齐。具体的对齐方式为:

1.利用词汇翻译概率和位置对齐概率,为每一个源语言单词寻找一个最佳的单词对齐。这样得到一个对齐序列A0。

2.在对齐序列Ai的基础上,利用词汇翻译概率,位置扭曲模型和词汇衍生模型,通过尝试交换任意两个对齐或改变一个对齐,来寻找更好的对齐序列Ai+1。

3.重复过程2,直到没有更好的对齐序列被发现。

在此,本领域技术人员应当可以理解,对于最佳对其序列的搜索可以采用人们已知的和将来的任何搜索算法。

从以上描述可知,采用本实施例的双语词对齐方法,通过利用一个中间语种解决了由于训练语料不充分而无法得到高质量的词对齐模型的问题,因此即使对于语料稀少的双语语种,例如,中文和英文,也可以进行准确的词对齐。

在同一发明构思下,图3是根据本发明一个实施例的训练双语词对齐模型的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。

如图3所示,本实施例的训练双语词对齐模型的装置300,第一训练单元303,其利用第一和第二语种的双语语料301,训练第一和第二语种的双语词对齐模型;第二训练单元304,其利用第二和第三语种的双语语料302,训练第二和第三语种的双语词对齐模型;以及模型估计单元305,其根据由第一训练单元303训练的第一和第二语种的双语词对齐模型以及由第二训练单元304训练的第二和第三语种的双语词对齐模型,估计第一和第三语种的双语词对齐模型。

具体地,由第一训练单元303训练的第一和第二语种的双语词对齐模型以及由第二训练单元304训练的第二和第三语种的双语词对齐模型,分别包括:词汇翻译子模型、位置扭曲子模型和词汇衍生子模型。模型估计单元305,包括:词汇翻译子模型估计单元,其利用第一和第二语种的词汇翻译子模型以及第二和第三语种的词汇翻译子模型,估计第一和第三语种的词汇翻译子模型;位置扭曲子模型估计单元,其利用第一和第二语种的位置扭曲子模型以及第二和第三语种的位置扭曲子模型,估计第一和第三语种的位置扭曲子模型;以及词汇衍生子模型估计单元,其利用第一和第二语种的词汇衍生子模型以及/或者第二和第三语种的词汇衍生子模型、上述第一和第二语种的词汇翻译子模型以及/或者第二和第三语种的词汇翻译子模型,估计第一和第三语种的词汇衍生子模型。

与前面实施例类似,在本实施例中,词汇翻译子模型估计单元,当设pCE(wc|we)是第二语种的词we到第一语种的词wc的翻译概率,pEJ(we|wj)是第三语种的词wj到第二语种的词we的翻译概率,C(wj,wc)是第一语种的词wc和第三语种的词wj的同现次数,p(wc|wj)是第三语种的词wj到第一语种的词wc的翻译概率时,

利用公式 >>C>>(>>w>j>>,>>w>c>>)>>=>>Σ>>w>e> >>p>EJ>>>(>>w>e>>|>>w>j>>)>>*>>p>CE>>>(>>w>c>>|>>w>e>>)>>>s>收集第一语种的词wc和第三语种的词wj的同现次数;并且

利用公式 >>p>>(>>w>c>>|>>w>j>>)>>=>>>C>>(>>w>j>>,>>w>c>>)>>>>>Σ>>w>c>>>C>>(>>w>j>>,>>w>>c>′>>>)>>>>>s>计算第三语种的词wj到第一语种的词wc的翻译概率p(wc|wj)。

位置扭曲子模型估计单元,当设pEJ(k|i,l,m′)是第二语种的句子长度为m’、第三语种的句子长度为l、第ith个第三语种的词对应到第kth个第二语种的词的概率,pCE(j|k,m′,m)是第一语种的句子长度为m、第二语种的句子长度为m’、第kth个第二语种的词对应到第jth个第一语种的词的概率,C(j,i,l,m)和pCJ(j|i,l,m)分别是第一语种的句子长度为m、第三语种的句子长度为l、第ith个第三语种的词对应到第jth个第一语种的词的同现次数和概率时,

利用公式C(j,i,l,m)=∑k,m′pEJ(k|i,l,m′)*pCE(j|k,m′,m)收集第一语种的句子长度为m、第三语种的句子长度为l、第ith个第三语种的词对应到第jth个第一语种的词的同现次数;并且

利用公式 >>>p>CJ>>>(>j>|>i>,>l>,>m>)>>=>>>C>>(>j>,>i>,>l>,>m>)>>>>>Σ>>j>′>>>C>>(>>j>′>>,>i>,>l>,>m>)>>>>>s>计算第一语种的句子长度为m、第三语种的句子长度为l、第ith个第三语种的词对应到第jth个第一语种的词的位置扭曲概率。

词汇衍生子模型估计单元,当设pEJ(we|wj)是第三语种的词wj到第二语种的词we的翻译概率,pCE(i|we)是第二语种的词we对应i个第一语种的词的概率,C(i,wj)和p(i|wj)分别是第三语种的词wj衍生出i个第一语种的词的同现次数和概率时,

利用公式获得第三语种的词wj衍生出i个第一语种的词的同现次数;以及

利用公式计算第三语种的词wj衍生出i个第一语种的词的词汇衍生概率。

从以上描述可知,本实施例的训练双语词对齐模型的装置在操作上可以实现前面图1描述的实施例的训练双语词对齐模型的方法。采用本实施例,可以通过利用一个中间语种解决由于训练语料不充分而无法得到高质量的词对齐模型的问题。

在此,应当指出,本实施例的训练双语词对齐模型的装置300及其各个组成部分,可以用专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。

在同一发明构思下,图4是根据本发明一个实施例的双语词对齐装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。

如图4所示,本实施例的双语词对齐装置400,包括:前面图3描述的训练双语词对齐模型的装置300和词对齐单元406。词对齐单元406利用由训练双语词对齐模型的装置300获得的第一和第三语种的双语词对齐模型,对第一和第三语种的双语句子对进行词对齐,具体的词对齐方式在前面实施例中已经进行了描述,在此不再重复。

通过以上描述可知,本实施例的双语词对齐装置400可以实施前面描述的本发明实施例的双语词对齐方法。采用本实施例的双语词对齐装置,通过利用一个中间语种解决了由于训练语料不充分而无法得到高质量的词对齐模型的问题,因此即使对于语料稀少的双语语种,例如,中文和英文,也可以进行准确的词对齐。

在此,应当指出,本实施例的双语词对齐装置400及其各个组成部分,可以用专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。

以上虽然通过一些示例性的实施例对本发明的双语词对齐方法和装置、训练双语词对齐模型的方法和装置进行了详细的描述,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅由所附权利要求为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号