法律状态公告日
法律状态信息
法律状态
2019-11-22
授权
授权
2017-11-17
实质审查的生效 IPC(主分类):G06F17/28 申请日:20170512
实质审查的生效
2017-10-20
公开
公开
技术领域
本发明涉及机器翻译技术领域,特别涉及一种语言文本翻译方法及系统。
背景技术
随着国际化的进行,不同语言人群之间的交流与日俱增,翻译成为了交流中至关重要的工具。机器翻译因为便捷简单并且免费等优点,极大地满足了人们的翻译需求,提高了国际交流的效率,使得人们对机器翻译的正确性提出了更高的要求。
机器翻译大致可以分为:基于规则的机器翻译方法与基于语料库的机器翻译。基于语料库的机器翻译,它的一个关键问题就在于建立一个完整的语料库,也可称为高质量的训练样本。高质量的训练样本直接影响翻译的正确率。然而,建立高质量的训练样本并不是一件容易的事情,原因在于样本数据是有限的,不能很好地刻画原始数据的分布;另外,即使样本数据足够,也不能避免其中存在错误样本,即噪声数据。基于该训练样本得到的神经网络难以准备体现原模型,甚至会出现违反先验知识的情况。在这种情况下,先验知识的引入就变得十分重要。对翻译规则而言,例如,“不应重复翻译,也不应漏翻”,这样的规则就可称为先验知识。许多研究表明,在神经网络模型中融入先验知识以对其约束,可以提高神经网络的性能。
基于注意力机制的神经网络的机器翻译方法(Attention-based Neural MachineTranslation;简称Attention-based NMT)是基于语料库的机器翻译的一个分支,也是目前主流翻译系统所使用的一种机器翻译方法。其基本思想为使用一个端到端的非线性神经网络直接将源语言文本映射成目标语言文本,即构建一个“编码-解码”的新框架:给定一个源语言句子,首先使用一个编码器将其映射为一个连续、稠密的向量,然后再使用一个解码器将该向量转化为一个目标语言句子。但是,这种方法很难将先验知识融入到神经网络之中。
目前也有一些将先验知识融入到神经网络中的技术。例如,一些技术将先验知识用额外的神经网络模块表示;一些技术通过在训练目标中添加限制项以融入先验知识。虽然这些技术可以显著地提升翻译效果,但是前者要求不同先验知识之间的相关性也需要被建模,后者只能够添加少量简单的限制项。这些问题导致这些技术不能被应用于将任意、复杂的先验知识融入神经网络机器翻译模型。
因此,如何提供一种可以将任意先验知识融入神经网络机器翻译模型的翻译方法是一个亟需解决的问题。
发明内容
为解决现有技术存在的无法将任意先验知识融入神经网络翻译模型的问题,本发明提供一种语言文本翻译方法及系统。
一方面,本发明提供一种语言文本翻译方法,该方法包括:
根据预设的翻译候选集合确定规则,确定源语言文本对应的翻译候选集合,所述翻译候选集合包括源语言文本的多个翻译文本;所述源语言文本为待翻译的语言文本;
基于所述翻译候选集合、预设的翻译模型及预设的先验知识模型,确定第一概率分布及第二概率分布;所述第一概率分布用于指示所述翻译文本符合先验知识模型的概率,所述第二概率分布用于指示所述翻译文本符合翻译模型的概率;
基于所述第一概率分布及所述第二概率分布,从所述翻译候选集合中确定所述源语言文本的翻译文本。
另一方面,本发明提供一种语言文本翻译系统,该系统包括:
翻译候选集合模块,用于根据预设的翻译候选集合确定规则,确定源语言文本对应的翻译候选集合,所述翻译候选集合包括源语言文本的多个翻译文本;所述源语言文本为待翻译的语言文本;
训练模块,用于基于所述翻译候选集合、预设的翻译模型及预设的先验知识模型,确定第一概率分布及第二概率分布;所述第一概率分布用于指示所述翻译文本符合先验知识模型的概率,所述第二概率分布用于指示所述翻译文本符合翻译模型的概率;
翻译模块,用于基于所述第一概率分布及所述第二概率分布,从所述翻译候选集合中确定所述源语言文本的翻译文本。
本发明提供的语言文本翻译方法及系统,通过分别计算先验知识模型和翻译模型在翻译候选集合上的概率分布,并将两个概率分布的差异作为语言训练目标的一部分,从而使得机器翻译模型可以学习到任意的先验知识,提高了机器翻译结果的准确性和可靠性。
附图说明
图1为本发明实施例提供的语言文本翻译方法的流程示意图;
图2为本发明实施例提供的语言文本翻译系统的结构示意图;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的语言文本翻译方法的流程示意图。如图1所示,该方法包括以下步骤:
步骤101、根据预设的翻译候选集合确定规则,确定源语言文本对应的翻译候选集合,所述翻译候选集合包括源语言文本的多个翻译文本;所述源语言文本为待翻译的语言文本;
步骤102、基于所述翻译候选集合、预设的翻译模型及预设的先验知识模型,确定第一概率分布及第二概率分布;所述第一概率分布用于指示所述翻译文本符合先验知识模型的概率,所述第二概率分布用于指示所述翻译文本符合翻译模型的概率;
步骤103、基于所述第一概率分布及所述第二概率分布,从所述翻译候选集合中确定所述源语言文本的翻译文本。
具体地,首先,预设的翻译候选集合确定规则是指翻译是一个序列生成的任务,源语言文本x中有多个字或单词,在生成翻译候选集合时,前一个生成的字或单词会作为后一个字或单词的输入。根据不同长度的源语言文本x,其真实的翻译候选集合的大小是指数级的,无法有效计算。在实际应用中,通过随机采样或者beam search,从而得到该源语言文本的多个翻译文本,即翻译候选集合S(x),利用现有技术即可实现,此处不再赘述;
然后,根据该翻译候选集合S(x)和预设的先验知识模型Q(y|x;γ),确定第一概率分布
为了表述清楚,若源语言文本x作为输入,翻译文本y作为输出,这样就组成了句对(x,y)。在实际应用中,不同的语境下同一个单词或字存在不同的语义,而源语言文本x是由多个单词或字按照不同的排列顺序组成的,而单词或字的多义性及顺序的不确定性导致一个源语言文本可能对应多个翻译文本(y1、y2、y3等),在这多个翻译文本中概率最高的则为最佳翻译文本,为了与其他翻译文本进行区分,称为目标语言文本。
例如,预设的先验知识模型Q(y|x;γ),可以根据不同的特征函数φ(x,y)得到不同的模型,第一概率分布可以按照下式确定:
其中,x表示源语言文本,y为目标语言文本,y′为翻译文本,γ为先验知识模型的预设参数。
特征函数φ(x,y)表示在先验知识数据库中源语言文本与翻译文本的对应关系,基于具体的特征函数,利用先验知识模型对每个翻译文本y1、y2和y3进行打分,即计算每个翻译文本符合先验知识模型的概率。其中,越符合先验知识模型的翻译文本,概率越高。
翻译模型P(y|x;θ)则是机器翻译常用到的打分模型,该翻译模型可通过训练平行语料库得到,表示平行语料库中源语言文本x与翻译文本y的对应关系,用于计算每个翻译文本符合翻译模型的概率,属于现有技术,此处不再赘述。
根据翻译候选集合S(x)和翻译模型P(y|x;θ),第二概率分布可以通过下式确定:
其中,x表示源语言文本,y为目标语言文本,y′为翻译文本,θ为翻译模型的参数;α是用来控制第二概率分布陡峭程度的预设超参数。
本发明实施例提供的语言文本翻译方法,通过综合利用先验知识模型和翻译模型,从两个方面对多个翻译文本进行打分,从而鼓励越符合先验知识模型的翻译文本在翻译模型下的概率也越高,从而从翻译候选集合中最终确定目标语言文本,提高了翻译模型的性能和翻译结果的准确性。
在上述实施例的基础上,该语言文本翻译方法中的所述第一概率分布及所述第二概率分布,从所述翻译候选集合中确定所述源语言文本的翻译文本,包括:
基于所述第一概率分布及所述第二概率分布,确定概率差异参数值;所述概率差异参数用于指示所述第一概率分布及所述第二概率分布的差异;
基于所述概率差异参数值,从所述翻译候选集合中确定所述源语言文本的翻译文本。
具体地,首先,根据预设的翻译候选集合确定规则,确定源语言文本x对应的翻译候选集合S(x);然后,基于该翻译候选集合、翻译模型及先验知识模型,确定第一概率分布
例如,用户登录翻译系统后,在中-英翻译窗口的中文输入栏中输入源语言文本x为“很多机场都被迫关闭了”,根据x确定翻译候选集合S(x)有两个翻译文本:y1为“Manyairports were closed to close”和y2为“Many airports were forced to closedown”;
根据先验知识模型,确定第一概率分布
其中,Q(y1|x)=0.2,即句对(x,y1)符合先验知识模型的概率为0.2;Q(y2|x)=0.8,即句对(x,y2)符合先验知识模型的概率为0.8;
根据翻译模型,确定第二概率分布:
其中,P(y1|x)=0.6,即句对(x,y1)符合翻译模型的概率为0.6;P(y2|x)=0.4,即句对(x,y2)符合翻译模型的概率为0.4;
通过第一概率分布和第二概率分布,可以确定二者之间的差异参数值;基于该差异参数值对翻译模型进行调整并对上述两个翻译文本重新打分,得到P(y1|x)=0.3,P(y2|x)=0.7;
因此,确定源语言文本x:“很多机场都被迫关闭了”的翻译文本y:“Many airportswere forced to close down”。
由上述实施例可以看到,本发明实施例提供的语言文本翻译方法,基于第一概率分布和第二概率分布的差异参数值,并根据翻译模型对多个翻译文本重新打分,从而提高符合先验知识的翻译文本在翻译模型概率分布中的概率,进而得到更准确的源语言文本的翻译文本。
在上述实施例的基础上,所述第一概率分布和所述第二概率分布的差异参数值为KL(Kullback-Leibler)距离,可通过下式确定:
在上述各实施例的基础上,该语言文本翻译方法中的基于所述概率差异参数值,从所述翻译候选集合中确定所述源语言文本的翻译文本,包括:
基于所述差异参数值,确定训练目标;所述训练目标用于指示所述翻译模型向所述先验知识模型逼近;
基于所述训练目标和预设的重排序模型,从所述翻译候选集合中确定所述源语言文本的翻译文本。
具体地,首先,根据预设的翻译候选集合确定规则,确定源语言文本x对应的翻译候选集合S(x);然后,基于该翻译候选集合、翻译模型及先验知识模型,确定第一概率分布
一般来讲,在对翻译文本进行打分时,通常采用翻译模型P(y|x;θ)的对数似然估计作为标准训练准则,即传统的训练目标为对数似然函数L(θ)=logP(y|x;θ)。
通过确定第一概率分布和第二概率分布的差异参数值,将该差异参数值加入传统训练目标中,确定新的训练目标为J(θ,γ),该训练目标认为最优的参数θ和γ会鼓励最符合先验知识的翻译文本在翻译模型的第二概率分布中的概率最高,从而使得翻译模型更倾向于从翻译候选集合S(x)中确定符合先验知识的翻译文本为源语言文本x的目标语言文本y。
可选地,若该差异参数值为KL距离,训练目标可根据下式确定:
其中,λ1和λ2是平衡训练目标的预设超参数,N为训练数据的句对数。
通过新的训练目标得到最优的参数θ和γ,利用下面的重排序模型,从翻译候选中确定源语言文本的翻译文本。
y=argmaxy∈S(x){logP(y|x;θ)+γ·φ(x,y)}
例如,假设源语言文本x为“布什与沙龙举行了会谈”,根据x确定翻译候选集合S(x)有三个翻译文本:y1为“Bush held a talk with Sharon”,y2为“Bush held a talkwith Bush”,y3为“Bush had lunch with Sharon”。
假设特征函数φ(x,y)表示句对中源语言文本x和目标语言文本y中出现的词语对的数量,词语对集合为{(布什,Bush),(举行,held),(会谈,talk),(沙龙,Sharon)},则在第一个翻译文本y1中,4个词语对均出现,因此φ(x,y1)=4;同理,φ(x,y2)=3,φ(x,y3)=2。
根据先验知识模型可以确定第一概率分布
其中,翻译文本y1的概率为:
同理可得:Q(y2|x)=e3/(e2+e3+e4);Q(y3|x)=e2/(e2+e3+e4)。最终Q(y1|x)=0.67,Q(y2|x)=0.24,Q(y3|x)=0.09。
通过上述概率可知,翻译文本y1最符合先验知识模型,并且事实上也是正确的翻译文本;翻译文本y2则明显违背了“不应重复翻译,不应漏翻”的先验知识,因此概率较低;翻译文本y3则偏离了源语言文本的语义,因此概率更低。
假设通过调整前的翻译模型得到第二概率分布
其中,P(y1|x)=0.4,P(y2|x)=0.5,P(y3|x)=0.1,翻译模型会翻译出“Bushheld a talk with Bush”。
此时,若预设超参数λ1、λ2的数值均为1,通过公式计算上述两个概率分布之间KL(P||Q),基于该KL距离确定新的训练目标J(θ,γ);
基于该训练目标和重排序模型,对翻译模型进行调整,经过训练后P(y1|x)=0.6,P(y2|x)=0.31,P(y3|x)=0.09,可见,新的训练目标提高了翻译文本y1的概率,而降低了翻译文本y2和y3的概率,使得越符合先验知识的翻译文本在翻译模型中的概率分布中概率越高,即使翻译模型向先验知识模型逼近。
因此,最终输出的目标语言文本y为“Bush held a talk with Sharon”。
由上述实施例可以看到,本发明实施例提供的语言文本翻译方法,通过将符合先验知识模型的概率分布和符合翻译模型的概率分布之间的KL距离加入传统的训练目标,鼓励越符合先验知识模型的翻译文本在翻译模型下的概率也越高,进而得到更为优化的翻译模型参数,从而从翻译候选集合中最终确定目标语言文本,提高了翻译模型的性能和翻译结果的准确性。
图2为本发明实施例提供的语言文本翻译系统的结构示意图。如图2所示,该系统包括:翻译候选集合模块21、训练模块22及翻译模块23。其中,翻译候选集合模块21用于根据预设的翻译候选集合确定规则,确定源语言文本对应的翻译候选集合,所述翻译候选集合包括源语言文本的多个翻译文本;所述源语言文本为待翻译的语言文本;训练模块22用于基于所述翻译候选集合、预设的翻译模型及预设的先验知识模型,确定第一概率分布及第二概率分布;所述第一概率分布用于指示所述翻译文本符合先验知识模型的概率,所述第二概率分布用于指示所述翻译文本符合翻译模型的概率;翻译模块23用于基于所述第一概率分布及所述第二概率分布,从所述翻译候选集合中确定所述源语言文本的翻译文本。
需要说明的是,该语言文本翻译系统是为了实现上述方法实施例的,其功能具体可参考上述方法实施例,此处不再赘述。
在上述实施例的基础上,该系统中的翻译模块23具体用于基于所述第一概率分布及所述第二概率分布,确定概率差异参数值;所述概率差异参数用于指示所述第一概率分布及所述第二概率分布的差异;基于所述概率差异参数值,从所述翻译候选集合中确定所述源语言文本的翻译文本。可选地,所述概率差异参数为KL距离。
在上述各实施例的基础上,该系统中的翻译模块23具体用于基于所述差异参数值,确定训练目标;所述训练目标用于指示所述翻译模型向所述先验知识模型逼近;基于所述训练目标和预设的重排序模型,从所述翻译候选集合中确定所述源语言文本的翻译文本。
通过本发明提供的语言文本翻译方法和系统,在训练阶段将先验知识融入到翻译模型中,改善了翻译模型的性能,进而将先验知识运用到翻译过程中,从而无需增加额外的网络模块就可实现将任意先验知识运用到机器翻译中,最终提高翻译结果的准确性和可靠性。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
机译: 用于开发单语文档的基于计算机的系统和方法基于计算机的系统,用于翻译外语源中的文本输入,并且基于计算机的单,多语翻译方法涉及用于翻译语言源中的文本的计算机。一种基于计算机的语言开发方法用于文档开发单,多语言翻译和领域模型三方
机译: 基于标准草案的标志语言翻译系统,使用该标志的灾害/紧急广播系统,标志语言翻译方法和系统,以及灾害文本消息传输系统
机译: 训练基于双语语料库的目标语言单词变形模型的方法和装置,TLWI方法和装置以及将源语言文本翻译成目标语言翻译的翻译方法和系统