首页> 中国专利> 机器翻译结果的词对齐方法、装置、电子设备及存储介质

机器翻译结果的词对齐方法、装置、电子设备及存储介质

摘要

本公开提供了一种机器翻译结果的词对齐方法,包括:将源语言语句和源语言语句的机器翻译结果即目标语言语句组成句对,分别对源语言语句以及目标语言语句进行分词;使用专业领域词典对分词后的句对中的单词进行对齐,获得专业领域词典能够对齐的单词对,作为词典对齐结果;对源语言语句中的每个词与目标语言语句中的每个词进行正向对齐,获得正向对齐能够对齐的单词对,作为正向对齐结果;对于未能够正向对齐的词进行反向对齐,获得反向对齐能够对齐的单词对,作为反向对齐结果;以及将词典对齐结果、正向对齐结果以及反向对齐结果作为初级对齐结果。本公开还提供了机器翻译结果的词对齐装置、电子设备以及可读存储介质。

著录项

  • 公开/公告号CN112199965A

    专利类型发明专利

  • 公开/公告日2021-01-08

    原文格式PDF

  • 申请/专利权人 北京中科凡语科技有限公司;

    申请/专利号CN202011305025.4

  • 发明设计人 周玉;邓彪;李小青;刘鹏;韩延超;

    申请日2020-11-20

  • 分类号G06F40/58(20200101);G06F40/279(20200101);G06F40/242(20200101);G06F40/189(20200101);

  • 代理机构11807 北京庚致知识产权代理事务所(特殊普通合伙);

  • 代理人韩德凯;李伟波

  • 地址 100190 北京市海淀区知春路63号51号楼10层1006

  • 入库时间 2023-06-19 09:30:39

说明书

技术领域

本公开属于自然语言处理技术领域,本公开尤其涉及一种机器翻译结果的词对齐方法、装置、电子设备及存储介质。

背景技术

现有技术中的机器翻译是利用计算机将源语言转换为目标语言的过程。机器翻译技术具有重要的社会实用价值,其中最能体现的是针对各类专业领域中翻译需求的应用,例如医疗、金融等领域。然而专业领域中存在大量,对这些术语的翻译经常存在错译(翻译不专业)情况。

为提高翻译质量,需对这些专业领域文本的翻译结果进行分析。

一种有效方法是找出源句子与翻译结果的单词对应关系,再针对其中的错译进行相应处理。具体的翻译结果的词对齐示例见图1。

双语句对的词对齐技术,现有方法主要有两种:一是基于词典的方法,建立一个通用词典和领域词典进行匹配;二是利用词对齐工具,对双语句对进行词语对齐,比较成熟的词对齐工具有GIZA++和fast_align等。

现有技术中的翻译系统存在错译情况,尤其是的翻译,如图2所示,上文描述的现有的两种方法均无法准确对齐错译的单词或术语。除此之外,对基于词典的方法来说,需要维护一个精确并定期更新的词典,否则在词典中有噪声或者遇到新术语的情况下将不能准确匹配。基于词对齐的方法普遍应用在统计机器翻译中,在双语训练语料本身质量较高的情况下,对齐效果较好。但在源句子和翻译结果的对齐中,由于翻译结果的错译情况存在、英文与中文的句序和表达的不同,以及不能在对齐前对术语进行准确分词,因此类似fast_align之类的普通词对齐工具不能很好满足原文与机器翻译译文之间的词对齐需求。

发明内容

为了解决上述技术问题中的至少一个,本公开提供了一种机器翻译结果的词对齐方法、装置、电子设备及存储介质。

本公开的机器翻译结果的词对齐方法、装置、电子设备及存储介质通过以下技术方案实现。

根据本公开的一个方面,提供一种机器翻译结果的词对齐方法,包括:

S1、将源语言语句和所述源语言语句的机器翻译结果即目标语言语句组成句对,分别对所述源语言语句以及所述目标语言语句进行分词;

S2、使用专业领域词典对所述分词后的句对中的单词进行对齐,获得专业领域词典能够对齐的单词对,作为词典对齐结果;

S3、对所述源语言语句中的每个词与所述目标语言语句中的每个词进行正向对齐,获得正向对齐能够对齐的单词对,作为正向对齐结果;

S4、对于步骤S3中未能够正向对齐的词进行反向对齐,获得反向对齐能够对齐的单词对,作为反向对齐结果;以及

S5、将词典对齐结果、正向对齐结果以及反向对齐结果作为初级对齐结果。

根据本公开的至少一个实施方式的机器翻译结果的词对齐方法,步骤S3中,替换地,对专业领域词典未能够对齐的词进行正向对齐,获得正向对齐能够对齐的单词对,作为正向对齐结果。

根据本公开的至少一个实施方式的机器翻译结果的词对齐方法,对步骤S5获得的初级对齐结果进行补充对齐,包括:

S61、使用源语言切分词以及目标语言切分词将所述句对切分成源语言语块序列以及目标语言语块序列;

S62、基于所述初级对齐结果,将源语言语块与目标语言语块一一对应,获得语块对;

S63、判断所述初级对齐结果中的单词对中的源语言单词以及目标语言单词是否同时出现在一个语块对中,如果某个单词对未同时出现在一个语块对中,则将该单词对中的源语言单词以及目标语言单词从语块对中去除,获得清洗后的语块对;以及

S64、将清洗后的语块对中未对齐的单词进行对齐,获得所述初级对齐结果的补充对齐结果。

根据本公开的至少一个实施方式的机器翻译结果的词对齐方法,步骤S62中,使用以下方法获得所述语块对:

将源语言语块序列表示为

基于所述初级对齐结果,获得源语言单词与目标语言单词的对齐关系以及对齐概率,使用以下公式进行语块对齐:

其中i,j表示语块序号,m,n分别表示语块序列i、j中的单词的序号;

在进行语块对齐时,对每个源语言语块,计算其中的每个词与目标语言语块的每个词之间的对齐概率ρ,单词对属于初级对齐结果的,其对齐概率为初级对齐概率,不属于初级对齐结果的,其对齐概率为0;

将源语言语块内的所有单词对的对齐概率相加作为该源语言语块相对于目标语言语块的语块对齐概率,选择概率最大的为该源语言语块对齐的目标语言语块。

根据本公开的至少一个实施方式的机器翻译结果的词对齐方法,步骤S3中,所述正向对齐包括以下步骤:

S31、获得源语言训练语料中的每个词相对于目标语言训练语料中的每个词的翻译概率,以及位置对齐因子;

S32、基于所述翻译概率和所述位置对齐因子,计算分词后所述源语言语句中的每个词相对于分词后所述目标语言语句中的每个词的位置对齐概率;以及

S33、取所述源语言语句中的每个词相对于分词后所述目标语言语句中的每个词的位置对齐概率的最大值对应的所述源语言语句的词与所述目标语言语句的词的对应结果作为正向对齐结果。

根据本公开的至少一个实施方式的机器翻译结果的词对齐方法,还包括:

S34、判断每个所述最大值是否超过预定阈值,如果存在低于所述预定阈值的最大值,则对低于所述预定阈值的最大值对应的所述源语言语句中的词进行反向对齐。

根据本公开的至少一个实施方式的机器翻译结果的词对齐方法,所述反向对齐包括:

获得目标语言训练语料中的每个词相对于源语言训练语料中的每个词的翻译概率,同时增大所述正向对齐中的位置对齐因子;基于所述翻译概率和增大后的位置对齐因子,计算分词后所述目标语言语句中的每个词相对于分词后所述源语言语句中的每个词的位置对齐概率;取所述目标语言语句中的每个词相对于分词后所述源语言语句中的每个词的位置对齐概率的最大值对应的所述目标语言语句的词与所述源语言语句的词的对应结果作为反向对齐结果。

根据本公开的至少一个实施方式的机器翻译结果的词对齐方法,在获得所述分词后的所述目标语言语句中每个词相对于分词后的所述源语言语句中每个词的位置对齐概率时,增大位置对齐因子。

根据本公开的至少一个实施方式的机器翻译结果的词对齐方法,步骤S31中,使用源语言-目标语言翻译概率表获得分词后的所述源语言语句中每个词相对于分词后的所述目标语言语句中每个词的翻译概率。

根据本公开的至少一个实施方式的机器翻译结果的词对齐方法,使用目标语言-源语言翻译概率表获得分词后的所述目标语言语句中每个词相对于分词后的所述源语言语句中每个词的翻译概率。

根据本公开的至少一个实施方式的机器翻译结果的词对齐方法,步骤S31中,所述位置对齐概率通过下式计算获得:

上述公式中的位置对齐概率即e中的每个词i对齐到f中的词j的位置对齐概率;

其中,e为源句子,m为源句子长度,f为目标句子,n为目标句子长度,θ为位置对齐因子,a

根据本公开的至少一个实施方式的机器翻译结果的词对齐方法,采用以下计算公式计算Z

令:

则:

根据本公开的至少一个实施方式的机器翻译结果的词对齐方法,通过词典匹配的方式进行词典对齐。

根据本公开的至少一个实施方式的机器翻译结果的词对齐方法,所述源语言为英语、德语或者法语。

根据本公开的至少一个实施方式的机器翻译结果的词对齐方法,所述目标语言为汉语。

根据本公开的另一方面,提供一种机器翻译结果的词对齐装置,包括:

分词模块,所述分词模块将源语言语句和所述源语言语句的机器翻译结果即目标语言语句组成句对,分别对所述源语言语句以及所述目标语言语句进行分词;

词典对齐模块,所述词典对齐模块使用专业领域词典对所述分词后的句对中的单词进行对齐,获得专业领域词典能够对齐的单词对,作为词典对齐结果;

正向对齐模块,所述正向对齐模块对所述源语言语句中的每个词与所述目标语言语句中的每个词进行正向对齐,获得正向对齐能够对齐的单词对,作为正向对齐结果;

反向对齐模块,所述反向对齐模块对于未能够正向对齐的词进行反向对齐,获得反向对齐能够对齐的单词对,作为反向对齐结果;以及

初级对齐结果生成模块,所述初级对齐结果生成模块将词典对齐结果、正向对齐结果以及反向对齐结果作为初级对齐结果。

根据本公开的至少一个实施方式的机器翻译结果的词对齐装置,替换地,所述正向对齐模块对专业领域词典未能够对齐的词进行正向对齐,获得正向对齐能够对齐的单词对,作为正向对齐结果。

根据本公开的至少一个实施方式的机器翻译结果的词对齐装置,还包括补充对齐模块,所述补充对齐模块对所述初级对齐结果进行补充对齐。

根据本公开的至少一个实施方式的机器翻译结果的词对齐装置,所述补充对齐模块包括:

语块切分模块,所述语块切分模块使用源语言切分词以及目标语言切分词将所述句对切分成源语言语块序列以及目标语言语块序列;

语块对生成模块,所述语块对生成模块基于所述初级对齐结果,将源语言语块与目标语言语块一一对应,获得语块对;

语块对清洗模块,所述语块对清洗模块判断所述初级对齐结果中的单词对中的源语言单词以及目标语言单词是否同时出现在一个语块对中,如果某个单词对未同时出现在一个语块对中,则将该单词对中的源语言单词以及目标语言单词从语块对中去除,获得清洗后的语块对;以及

补充对齐结果生成模块,所述补充对齐结果生成模块将清洗后的语块对中未对齐的单词进行对齐,获得所述初级对齐结果的补充对齐结果。

根据本公开的又一个方面,提供一种电子设备,包括:存储器,所述存储器存储执行指令;以及处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行上述任一项的方法。

根据本公开的又一个方面,提供一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述任一项的方法。

附图说明

附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。

图1是翻译结果词对齐示例图。

图2是翻译结果的词语对齐实际情况示例图。

图3是根据本公开的一个实施方式的机器翻译结果的词对齐方法的流程示意图。

图4是根据本公开的又一个实施方式的机器翻译结果的词对齐方法的流程示意图。

图5是根据本公开的又一个实施方式的机器翻译结果的词对齐方法的流程示意图。

图6是根据本公开的又一个实施方式的机器翻译结果的词对齐方法的流程示意图。

图7是根据本公开的一个实施方式的机器翻译结果的词对齐方法中的补充对齐方法的流程示意图。

图8是根据本公开的一个实施方式的机器翻译结果的词对齐方法中的正向对齐的流程示意图。

图9是根据本公开的一个实施方式的机器翻译结果的词对齐装置的结构框图。

图10是根据本公开的又一个实施方式的机器翻译结果的词对齐装置的结构框图。

图11是根据本公开的一个实施方式的机器翻译结果的词对齐装置的补充对齐模块的结构框图。

图12是根据本公开的一个实施方式的利用语块进行补充对齐的示例图。

图13是根据本公开的一个实施方式的机器翻译结果的词对齐方法的示例性流程示意图。

图14是根据本公开的一个实施方式的电子设备的结构框图。

100 机器翻译结果的词对齐装置

101 分词模块

102 词典对齐模块

103 正向对齐模块

104 反向对齐模块

105 初级对齐结果生成模块

106 补充对齐模块

1061 语块切分模块

1062 语块对生成模块

1063 语块对清洗模块

1064 补充对齐结果生成模块。

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。

需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。

除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此,除非另有说明,否则在不脱离本公开的技术构思的情况下,各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。

在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此,除非说明,否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外,在附图中,为了清楚和/或描述性的目的,可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时,可以以不同于所描述的顺序来执行具体的工艺顺序。例如,可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外,同样的附图标记表示同样的部件。

当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时,该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件,或者可以存在中间部件。然而,当部件被称作“直接在”另一部件“上”、“直接连接到”或“直接结合到”另一部件时,不存在中间部件。为此,术语“连接”可以指物理连接、电气连接等,并且具有或不具有中间部件。

为了描述性目的,本公开可使用诸如“在……之下”、“在……下方”、“在……下”、“下”、“在……上方”、“上”、“在……之上”、“较高的”和“侧(例如,在“侧壁”中)”等的空间相对术语,从而来描述如附图中示出的一个部件与另一(其它)部件的关系。除了附图中描绘的方位之外,空间相对术语还意图包含设备在使用、操作和/或制造中的不同方位。例如,如果附图中的设备被翻转,则被描述为“在”其它部件或特征“下方”或“之下”的部件将随后被定位为“在”所述其它部件或特征“上方”。因此,示例性术语“在……下方”可以包含“上方”和“下方”两种方位。此外,设备可被另外定位(例如,旋转90度或者在其它方位处),如此,相应地解释这里使用的空间相对描述语。

这里使用的术语是为了描述具体实施例的目的,而不意图是限制性的。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外,当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时,说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是,如这里使用的,术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语,如此,它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。

图3是根据本公开的一个实施方式的机器翻译结果的词对齐方法的流程示意图。

如图3所示,机器翻译结果的词对齐方法,包括:

S1、将源语言语句和源语言语句的机器翻译结果即目标语言语句组成句对,分别对源语言语句以及目标语言语句进行分词;

S2、使用专业领域词典对分词后的句对中的单词进行对齐,获得专业领域词典能够对齐的单词对,作为词典对齐结果;

S3、对源语言语句中的每个词与目标语言语句中的每个词进行正向对齐,获得正向对齐能够对齐的单词对,作为正向对齐结果;

S4、对于步骤S3中未能够正向对齐的词进行反向对齐,获得反向对齐能够对齐的单词对,作为反向对齐结果;以及

S5、将词典对齐结果、正向对齐结果以及反向对齐结果作为初级对齐结果。

其中,可以通过词典匹配的方式进行词典对齐。其中,源语言可以为英语、德语或者法语等等,目标语言可以为汉语等。

图4是根据本公开的又一个实施方式的机器翻译结果的词对齐方法的流程示意图。

如图4所示,机器翻译结果的词对齐方法,包括:

S1、将源语言语句和源语言语句的机器翻译结果即目标语言语句组成句对,分别对源语言语句以及目标语言语句进行分词;

S2、使用专业领域词典对分词后的句对中的单词进行对齐,获得专业领域词典能够对齐的单词对,作为词典对齐结果;

S3、对专业领域词典未能够对齐的词进行正向对齐,获得正向对齐能够对齐的单词对,作为正向对齐结果;

S4、对于步骤S3中未能够正向对齐的词进行反向对齐,获得反向对齐能够对齐的单词对,作为反向对齐结果;以及

S5、将词典对齐结果、正向对齐结果以及反向对齐结果作为初级对齐结果。

图5是根据本公开的又一个实施方式的机器翻译结果的词对齐方法的流程示意图。

如图5所示,机器翻译结果的词对齐方法,包括:

S1、将源语言语句和源语言语句的机器翻译结果即目标语言语句组成句对,分别对源语言语句以及目标语言语句进行分词;

S2、使用专业领域词典对分词后的句对中的单词进行对齐,获得专业领域词典能够对齐的单词对,作为词典对齐结果;

S3、对源语言语句中的每个词与目标语言语句中的每个词进行正向对齐,获得正向对齐能够对齐的单词对,作为正向对齐结果;

S4、对于步骤S3中未能够正向对齐的词进行反向对齐,获得反向对齐能够对齐的单词对,作为反向对齐结果;

S5、将词典对齐结果、正向对齐结果以及反向对齐结果作为初级对齐结果;以及

S6、对初级对齐结果进行补充对齐。

图6是根据本公开的又一个实施方式的机器翻译结果的词对齐方法的流程示意图。

如图6所示,机器翻译结果的词对齐方法,包括:

S1、将源语言语句和源语言语句的机器翻译结果即目标语言语句组成句对,分别对源语言语句以及目标语言语句进行分词;

S2、使用专业领域词典对分词后的句对中的单词进行对齐,获得专业领域词典能够对齐的单词对,作为词典对齐结果;

S3、对专业领域词典未能够对齐的词进行正向对齐,获得正向对齐能够对齐的单词对,作为正向对齐结果;

S4、对于步骤S3中未能够正向对齐的词进行反向对齐,获得反向对齐能够对齐的单词对,作为反向对齐结果;

S5、将词典对齐结果、正向对齐结果以及反向对齐结果作为初级对齐结果;以及

S6、对初级对齐结果进行补充对齐。

图8是根据本公开的一个实施方式的机器翻译结果的词对齐方法中的正向对齐的流程示意图。

优选地,步骤S3中,正向对齐包括以下步骤:

S31、获得源语言训练语料中的每个词相对于目标语言训练语料中的每个词的翻译概率,以及位置对齐因子。

S32、基于所述翻译概率和所述位置对齐因子,计算分词后所述源语言语句中的每个词相对于分词后所述目标语言语句中的每个词的位置对齐概率;以及

S33、取所述源语言语句中的每个词相对于分词后所述目标语言语句中的每个词的位置对齐概率的最大值对应的所述源语言语句的词与所述目标语言语句的词的对应结果作为正向对齐结果。

源语言训练语料以及目标语言训练语料的获得属于现有技术,不再赘述。

下面以英汉翻译为例,对上述实施方式中的词典对齐过程以及正向对齐过程进行说明。

首先需要准备词典文件和英汉双语的单词翻译概率表。

词典文件可以根据领域准备一个基础的专业领域词典,单词翻译概率表可以利用fast_align词对齐工具对大规模英汉双语训练语料基于EM算法进行训练得到。

对句对进行分词,英文可以利用空格分词,中文可以利用开源分词工具如jieba等进行分词。

首先利用领域词典,通过词典匹配的方式,将其中可以匹配的进行对齐。

随后利用词对齐方法进行对齐。词对齐的基本方法是计算源句子和目标句子中每个词的翻译概率和位置对齐概率的乘积作为对齐得分。其中翻译概率可以由训练得到的单词翻译概率表通过查表获得,未被统计过的单词对翻译概率统一设定为一个值,例如10

优选地,上述实施方式中的机器翻译结果的词对齐方法,还包括:

S34、判断每个所述最大值是否超过预定阈值,如果存在低于预定阈值的最大值,则对低于预定阈值的最大值对应的源语言语句中的词进行反向对齐。

优选地,上述实施方式中的机器翻译结果的词对齐方法,反向对齐包括:

获得目标语言训练语料中的每个词相对于源语言训练语料中的每个词的翻译概率,同时增大所述正向对齐中的位置对齐因子;基于所述翻译概率和增大后的位置对齐因子,计算分词后所述目标语言语句中的每个词相对于分词后所述源语言语句中的每个词的位置对齐概率;取所述目标语言语句中的每个词相对于分词后所述源语言语句中的每个词的位置对齐概率的最大值对应的所述目标语言语句的词与所述源语言语句的词的对应结果作为反向对齐结果。

优选地,上述实施方式中,在获得分词后的目标语言语句中每个词相对于分词后的源语言语句中每个词的位置对齐概率时,增大位置对齐因子。

优选地,上述实施方式中,步骤S31中,使用源语言-目标语言翻译概率表获得分词后的源语言语句中每个词相对于分词后的目标语言语句中每个词的翻译概率。

优选地,上述实施方式中,使用目标语言-源语言翻译概率表获得分词后的目标语言语句中每个词相对于分词后的源语言语句中每个词的翻译概率。

优选地,上述实施方式中,步骤S31中,位置对齐概率通过下式计算获得:

上述公式中的位置对齐概率即e中的每个词i对齐到f中的词j的位置对齐概率;

其中,e为源句子,m为源句子长度,f为目标句子,n为目标句子长度,θ为位置对齐因子,a

其中,位置对齐因子θ(positional alignment factor)可以通过fast_align工具等对语料的训练时与翻译概率表一同得到。

优选地,上述实施方式中,采用以下计算公式计算Z

令:

则:

本公开的机器翻译结果的词对齐方法,在进行词对齐时,优选地进行正向和反向两次对齐。

以英汉翻译为例,首先利用英-汉翻译概率表进行对齐,计算英文语句的每个词与中文语句的每个词的对齐得分,将得分归一化为概率值,取概率最大的作为英-汉正向对齐的结果。

对正向对齐中最大概率低于设定阈值的,认为是不可信的对齐结果,再利用汉-英翻译概率表进行反向对齐,此时将位置对齐因子θ值增大,即加强位置对对齐结果的影响,得到反向对齐结果。

综合词典对齐结果、正向对齐结果以及反向对齐的结果,得到利用词典和词对齐结合的方法进行对齐的初级对齐结果。

上述实施方式中得到的初级对齐结果,是使用词典和词对齐结合得到的,对翻译正确的术语单词对齐有很好的准确率,但是对于错译的术语单词,往往会出现错误。同时,以英汉翻译为例,由于英汉表达的句序通常是不同的,例如一些说明时间、地点的短语,以及存在包含、从属关系的情况,在这些情况下,无法通过词对齐方法对齐错译情况,也无法通过对齐错译词两边的词来达到目的。

需要对初级对齐结果进行补充对齐。

图7是根据本公开的一个实施方式的机器翻译结果的词对齐方法中的补充对齐方法的流程示意图。

如图7所示,优选地,上述实施方式中的步骤S6即补充对齐步骤包括:

S61、使用源语言切分词以及目标语言切分词将句对切分成源语言语块序列以及目标语言语块序列;

S62、基于初级对齐结果,将源语言语块与目标语言语块一一对应,获得语块对;

S63、判断初级对齐结果中的单词对中的源语言单词以及目标语言单词是否同时出现在一个语块对中,如果某个单词对未同时出现在一个语块对中,则将该单词对中的源语言单词以及目标语言单词从语块对中去除,获得清洗后的语块对;以及

S64、将清洗后的语块对中未对齐的单词进行对齐,获得初级对齐结果的补充对齐结果。

优选地,步骤S62中,使用以下方法获得语块对:

将源语言语块序列表示为

基于初级对齐结果,获得源语言单词与目标语言单词的对齐关系以及对齐概率,使用以下公式进行语块对齐:

其中i,j表示语块序号,m,n分别表示语块序列i、j中的单词的序号;

在进行语块对齐时,对每个源语言语块,计算其中的每个词与目标语言语块的每个词之间的对齐概率ρ,单词对属于初级对齐结果的,其对齐概率为初级对齐概率,不属于初级对齐结果的,其对齐概率为0;

将源语言语块内的所有单词对的对齐概率相加作为该源语言语块相对于目标语言语块的语块对齐概率,选择概率最大的为该源语言语块对齐的目标语言语块。

上述实施方式中,步骤S61将句对切分成语块序列。以英汉翻译为例,优选地,首先根据初级对齐结果,将句对中里已经对齐的词条的前面添加起始标志,在词条后面添加结束标志,以防止在切分语块时将已经对齐的结果切开。切分英文时,可以预先设定一些英文切分词,包括标点符号以及“in、at、on、of、with、and、but、or”等,这些词的存在往往会因为英文表达习惯中进行前置或者后置而改变句子顺序。

将原始句对中的英文句子,根据预先设定的这些切分词,切分成语块(block)序列。这样使得在每个语块中的单词顺序和中文翻译中的单词顺序是一致的。随后将中文也切分成语块序列。同样的方式可以设定中文标点符号以及“的、和、并、或、在、与、中”等词作为切分词,将中文切分成语块序列。

在得到句对的语块序列后,以英汉翻译为例,步骤S62再利用初级对齐结果,将中文语块和英文语块一一对应。这样对应后可以进一步明确初级对齐结果之外的因为错译和其他情况没有对齐的词的对齐关系,从而进行补充对齐。

示例性地,以英汉翻译为例,在进行语块对齐时,对每个英文语块,例如语块

在对齐所有语块后,因为语块与语块之间、单词和单词之间不可能一一对应,即英文语块所对齐的中文语块中(以英汉翻译为例),有对应其他英文语块的中文单词。因此,需要使用步骤S63对每个语块内部的单词进行清洗,例如对于初级对齐结果中的每个单词对,若其不同时出现在英文语块与对齐的中文语块中,则将该英文单词或者中文单词去掉。

经过对齐和清洗后,语块之间、单词之间的对应关系已经基本一致,随后可以查找每个英文语块中未找到对齐中文的单词(以英汉翻译为例),例如

综合初级对齐结果和补充对齐结果,得到最终对齐结果,可参见图12示出的示例。最终得到的对齐结果,与现有技术相比,准确率可以提高10%以上。

图9是根据本公开的一个实施方式的机器翻译结果的词对齐装置的结构框图。

如图9所示,机器翻译结果的词对齐装置100,包括:

分词模块101,分词模块101将源语言语句和源语言语句的机器翻译结果即目标语言语句组成句对,分别对源语言语句以及目标语言语句进行分词;

词典对齐模块102,词典对齐模块102使用专业领域词典对分词后的句对中的单词进行对齐,获得专业领域词典能够对齐的单词对,作为词典对齐结果;

正向对齐模块103,正向对齐模块103对源语言语句中的每个词与目标语言语句中的每个词进行正向对齐,获得正向对齐能够对齐的单词对,作为正向对齐结果;

反向对齐模块104,反向对齐模块104对于未能够正向对齐的词进行反向对齐,获得反向对齐能够对齐的单词对,作为反向对齐结果;以及

初级对齐结果生成模块105,初级对齐结果生成模块105将词典对齐结果、正向对齐结果以及反向对齐结果作为初级对齐结果。

图10是根据本公开的又一个实施方式的机器翻译结果的词对齐装置的结构框图。

如图10所示,机器翻译结果的词对齐装置100,包括:

分词模块101,分词模块101将源语言语句和源语言语句的机器翻译结果即目标语言语句组成句对,分别对源语言语句以及目标语言语句进行分词;

词典对齐模块102,词典对齐模块102使用专业领域词典对分词后的句对中的单词进行对齐,获得专业领域词典能够对齐的单词对,作为词典对齐结果;

正向对齐模块103,正向对齐模块103对源语言语句中的每个词与目标语言语句中的每个词进行正向对齐,获得正向对齐能够对齐的单词对,作为正向对齐结果;

反向对齐模块104,反向对齐模块104对于未能够正向对齐的词进行反向对齐,获得反向对齐能够对齐的单词对,作为反向对齐结果;

初级对齐结果生成模块105,初级对齐结果生成模块105将词典对齐结果、正向对齐结果以及反向对齐结果作为初级对齐结果;以及

补充对齐模块106,补充对齐模块106对初级对齐结果进行补充对齐。

替换地,上述实施方式中,正向对齐模块103对专业领域词典未能够对齐的词进行正向对齐,获得正向对齐能够对齐的单词对,作为正向对齐结果。

图11是根据本公开的一个实施方式的机器翻译结果的词对齐装置的补充对齐模块106的结构框图。

如图11所示,补充对齐模块106包括:

语块切分模块1061,语块切分模块1061使用源语言切分词以及目标语言切分词将句对切分成源语言语块序列以及目标语言语块序列;

语块对生成模块1062,语块对生成模块1062基于初级对齐结果,将源语言语块与目标语言语块一一对应,获得语块对;

语块对清洗模块1063,语块对清洗模块1063判断初级对齐结果中的单词对中的源语言单词以及目标语言单词是否同时出现在一个语块对中,如果某个单词对未同时出现在一个语块对中,则将该单词对中的源语言单词以及目标语言单词从语块对中去除,获得清洗后的语块对;以及

补充对齐结果生成模块1064,补充对齐结果生成模块1064将清洗后的语块对中未对齐的单词进行对齐,获得初级对齐结果的补充对齐结果。

图13是根据本公开的一个实施方式的机器翻译结果的词对齐方法的示例性流程示意图。

如图13所示,对机器翻译结果(可以是源语言句子译员校正结果)的句对进行分词,首先使用专业词典进行匹配,获得词典能够对齐的单词对,然后进行正向词对齐,获得正向词对齐能够对齐的单词对,其中,判断每个词的正向词对齐的对齐概率是否大于阈值,如果均大于阈值,则获得初级对齐结果,如果存在不大于阈值的正向对齐概率,则进行反向词对齐,再获得初级对齐结果。

获得初级对齐结果之后,切分双语语块序列,将句对切分成源语言语块序列以及目标语言语块序列,基于初级对齐结果,对齐双语语块序列,判断是否有未对齐单词,如果没有,即获得最终对齐结果,如果有,进行语块内补充对齐,再获得最终对齐结果。

本公开的针对机器翻译结果的词对齐方法以及针对机器翻译结果的词对齐装置与现有技术中的方法/装置相比,首先得到初级对齐结果,再通过对句对切块、使用语块对齐方法进行补充对齐,提高了单词对齐的准确率,特别是错译结果与源语言语句单词的对齐。

本公开还提供一种电子设备,如图14所示,该设备包括:通信接口1000、存储器2000和处理器3000。通信接口1000用于与外界设备进行通信,进行数据交互传输。存储器2000内存储有可在处理器3000上运行的计算机程序。处理器3000执行计算机程序时实现上述实施方式中方法。存储器2000和处理器3000的数量可以为一个或多个。

存储器2000可以包括高速RAM存储器,也可以还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。

如果通信接口1000、存储器2000及处理器3000独立实现,则通信接口1000、存储器2000及处理器3000可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,该图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

可选的,在具体实现上,如果通信接口1000、存储器2000、及处理器3000集成在一块芯片上,则通信接口1000、存储器2000、及处理器3000可以通过内部接口完成相互间的通信。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如,本公开中的方法实施方式可以被实现为软件程序,其被有形地包含于机器可读介质,例如存储器。在一些实施方式中,软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时,可以执行上文描述的方法中的一个或多个步骤。备选地,在其他实施方式中,处理器可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述方法之一。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,可以具体实现在任何可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。

就本说明书而言,“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在存储器中。

应当理解,本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种可读存储介质中,该程序在执行时,包括方法实施方式的步骤之一或其组合。

此外,在本公开各个实施方式中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个可读存储介质中。存储介质可以是只读存储器,磁盘或光盘等。

在本说明书的描述中,参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中,对上述术语的示意性表述不必须的是相同的实施方式/方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号