首页> 中国专利> 一种计算机中限定翻译片段的交互式翻译方法

一种计算机中限定翻译片段的交互式翻译方法

摘要

本发明提出了一种计算机中限定翻译片段的交互式翻译方法,包括:用户输入需要翻译的句子,由系统给出原始翻译结果,当用户对系统给出的翻译结果的顺序有不同意见,通过点击操作对源语言片段进行限制,使得其作为一个完整的整体,系统根据重新翻译,避免系统翻译中存在的某些整体被作为多个子部分而分别翻译时,与其他部分发生的调序错误。对比现有的简单的网页翻译系统,本方法突出在不需要用户提供正确翻译结果的情况下,仅提供翻译片段切分信息,即可以让系统利用用户提供的信息进行重新解码,针对调序问题进行限制;对比已有的交互式翻译系统,本方法提供了更有效的交互信息及交互方式,在实际实验情况下可提高翻译质量。

著录项

  • 公开/公告号CN104899193A

    专利类型发明专利

  • 公开/公告日2015-09-09

    原文格式PDF

  • 申请/专利权人 南京大学;

    申请/专利号CN201510330285.X

  • 申请日2015-06-15

  • 分类号

  • 代理机构江苏圣典律师事务所;

  • 代理人胡建华

  • 地址 210023 江苏省南京市栖霞区仙林大道163号南京大学

  • 入库时间 2023-12-18 10:55:13

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-10-17

    授权

    授权

  • 2015-10-07

    实质审查的生效 IPC(主分类):G06F17/28 申请日:20150615

    实质审查的生效

  • 2015-09-09

    公开

    公开

说明书

技术领域

本发明涉及一种计算机中限定翻译片段的交互式翻译方法,特别是一种用户向系 统提供源语言正确切分信息,系统接收信息并进行重新解码的翻译方法。

背景技术

统计机器翻译,自上世纪90年代以来发展十分迅速,取得了很大的进步,已成为 机器翻译领域中的研究热点。

虽然统计机器翻译已经有了长足的进步,但目前的机器翻译的实用性和可用性还 并不非常高,对于复杂的源语言句子的翻译结果不理想,尤其是不同语系之间的机器 翻译的质量更是急需提高,在提升机器翻译模型的翻译能力的难度越来越大、机器翻 译系统的翻译结果的直接可用性不够强的条件下,如何通过更好的人机交互来辅助用 户进行翻译,提高用户的翻译效率成为了一个重要问题。

统计机器翻译系统中,一种非常高效的方法是基于短语的统计机器翻译系统,其 工作过程如下:输入待翻译的句子S,系统随之将其切分为n个短语,即S=s1,s2,……sn, 进一步地,接着将每个源短语si翻译成目标语言短语ti,并利用已训练完毕的调序模型 描述每个短语ti的调序信息,对所有短语进行组合,生成目标语言句子T=t1,t2,……tn。 最后在所有可能的候选翻译中搜索出概率最高的句子。由上可知,短语的翻译准确程 度、翻译的调序准确程度都是影响机器翻译的翻译能力的重要因素,用户参与系统的 翻译,帮助系统对上述两个因素进行正确的判断,对于整个基于短语的机器翻译系统 的翻译能力有很大的提升作用,本发明着重于对翻译的调序准确程度的研究,在实际 使用中,可以提高翻译质量。

在现有的发明技术中,如中国科学计算技术研究所2011年申请的《计算机辅助翻 译的方法及系统》专利中,着重于在机器翻译的基础上,对机器翻译的结果利用一些 交互方式,提供记忆库、词典等方式进行翻译的后编辑,并没有提供系统对翻译结果 进行重新解码的功能,仅仅是对翻译结果的修改,需要用户提供词或短语或句子的正 确翻译结果,且对用户提供的信息利用不够充分,对机器翻译系统本身的解码过程没 有起到调整优化作用,因此需要寻求可支持用户提供更简单的信息,对用户提供的信 息利用更充分的交互方法。

发明内容

发明目的:本发明所要解决的技术问题是针对目前的机器辅助翻译系统中,只提 供了简单的后编辑和记忆库等交互信息,并没有充分利用用户提供的信息进行重新解 码,对机器翻译系统的解码输出没有起到调整优化作用的弱点,提出一种限定翻译片 段的交互式翻译方法。

为了解决上述技术问题,本发明公开了一种交互式机器翻译中用户向系统提供源 语言翻译片段正确切分信息,系统接收信息并进行重新解码的新型交互方法。

本发明所述用户向系统提供源语言翻译片段正确切分信息包括如下步骤:

步骤1,用户通过系统提供的Web平台开始翻译,并向系统提供源语言翻译片段 正确切分信息;

步骤2,系统接收用户提供的正确切分信息后进行重新翻译。

其中,步骤1包括如下步骤:

步骤1-1,用户在输入框中输入需要翻译的内容作为源语言,系统开始翻译,翻译 结束后得到格式化的初始翻译结果;

步骤1-2,用户观察步骤1-1中生成的初始翻译结果,在源语言上选择片段的起始 词和结束词,从而将源语言中翻译片段正确切分信息提供给系统。

步骤2包括如下步骤:

步骤2-1,系统接收用户选择片段的起始词和结束词,根据源语言的词结构,从起 始词开始至结束词,确定用户所要求限定的翻译片段;

步骤2-2,系统对源语言进行重新翻译,用户限定的翻译片段的内部不与片段外的 短语进行调序,即将用户限定的翻译片段作为整体进行翻译,用户限定的翻译片段的 内部翻译若要进行调序,必须生成连续的整体翻译结果,在系统得到新的翻译结果后, 结构化输出该翻译结果,若用户接收翻译结果,则结束本步骤,否则返回步骤2-1。

步骤2-2包括:

系统在机器翻译过程中,进行如下的限制:

如果正在翻译的片段与限定的翻译片段无重叠,即还未进入用户限定的翻译片段 则继续标准的机器翻译流程,不做任何另外处理工作,即:

p(t|s,cst,cflag)=p(t|s)if cflag=false,

如果正在翻译的片段与限定的翻译片段有重叠,即正在翻译的片段进入了限定的 翻译片段,则系统必须将限定的翻译片段翻译完毕后再进行其他部分的翻译,从而达 到限定的翻译片段内部不与其他部分进行调序,保证限定的翻译片段是一个完整的整 体的目标,即:

p(t|s,cst,cflag)=p(t|s)if(cflag=true)andcover(cst,s)0if(cflag=true)andnotcover(cst,s),

其中s为源语言短语;t为短语s的翻译结果;cst为用户限定的翻译片段;cflag 为正在翻译的片段是否进入限定的翻译片段的标记,初始值为false,一旦正在翻译的 片段进入了限定的翻译片段,cflag的值则重置为true,当限定的翻译片段被完全翻译 后,cflag的值重置为false;cover(a,b)表示a,b是否重叠;p(t|s,cst,cflag)表示正在翻 译的短语进入了用户限定的翻译片段cst时(此时cflag为true),源语言短语s翻译为 t的概率;p(t|s)表示源语言短语s翻译成t在机器翻译系统中的概率。

有益效果:本发明从整体上达到避免翻译中出现的某些整体被作为多个子部分而 分别翻译时,与其他部分发生的调序错误,以此提高翻译质量的目标。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/ 或其他方面的优点将会变得更加清楚。

图1是本发明的流程图。

具体实施方式

本发明提出了一种交互式机器翻译中的新型交互方式。用户向系统提供源语言正 确翻译片段切分信息;系统在此基础上进行重新解码获得新的翻译结果。现有技术中 一方面提供的交互信息较弱,另一方面系统并没有利用本发明中用户可提供的信息进 行重新解码,或者解码方式不同。

如图1所示,本发明公开了一种交互式机器翻译中的新型交互方式,基于本发明 开发的Web的短语统计翻译系统上开发了若干新型交互方式,即系统提供源语言正确 切分信息;系统在此基础上进行重新解码获得新的翻译结果。

本发明所述用户向系统提供源语言正确切分信息包括如下步骤:

步骤11,用户通过基于本发明开发的系统提供的Web平台开始翻译工作:用户在 输入框中输入需要翻译的内容,系统开始翻译,翻译结束后提供格式化的初始翻译结 果。

步骤12,用户观察步骤11中生成的初始翻译,寻找在翻译过程中短语调序问题严 重、与标准翻译的顺序差别较大、应该作为整体翻译而非分开翻译的片段,利用简单 的交互方式,比如鼠标点击,用户选择片段的起始词和结束词,提供给系统源语言正 确切分信息。

本发明所述系统接收用户提供的正确翻译片段切分信息后进行重新解码包括以下 步骤:

步骤21,系统接收用户提供的信息,即源语言的起始、结束词,根据该信息及源 端句子的词结构,从起始词开始至结束词,确定用户所要求限制的片段,转入一下步 骤。

步骤22,系统利用该信息对源语言进行重新解码(翻译),限定该切分片段内部不 与片段外的短语进行调序,即用户限定的片段作为整体进行翻译,整体内部可以调序, 但必须生成连续的整体翻译结果。由此可以解决翻译过程中某些严重的短语调序问题, 在系统得到新的翻译结果后,结构化输出。若用户接收翻译结果,则结束,否则返回 21。

本发明所述系统接收用户提供的正确切分信息后进行重新解码中步骤22包括:

系统在机器翻译的解码(翻译)过程中,进行如下的限制:

如果正在翻译翻译的片段与限制的切分片段无重叠,即还未进入用户限制的翻译 片段,则继续标准的机器翻译流程,不做任何另外处理工作。即

p(t|s,cst,cflag)=p(t|s)if cflag=false

如果正在翻译的片段与限制的切分片段有重叠,即正在翻译的片段进入了限制的 切分片段,则限制机器翻译的过程必须将限制的切分片段完全翻译完毕后再进行其他 部分的翻译,从而达到限制该切分片段内部不与其他部分进行调序,保证该切分片段 是一个完整的整体的目标。

p(t|s,cst,cflag)=p(t|s)if(cflag=true)andcover(cst,s)0if(cflag=true)andnotcover(cst,s),

其中s为源语言短语;t为短语s的翻译结果;cst为用户给定的翻译片段;cflag 为正在翻译的片段是否进入限制片段的标记,初始为false,一旦正在翻译的片段中某 个翻译短语进入了限制片段,cflag为true,当限制片段被完全翻译后,cflag重置为 false;cover(a,b)表示a,b是否重叠;p(t|s,cst,cflag)表示正在翻译的短语进入了用户限 定的翻译片段cst时(此时cflag为true),源语言短语s翻译为t的概率;p(t|s)表示给 定源语言短语s翻译成目标端短语t在机器翻译系统中的概率。

实施例1

本实施例用户向系统提供翻译切分片段信息,系统接收用户提供的正确翻译片段 切分信息后进行重新解码运行如下:

1.通过基于本发明开发的系统提供的Web平台开始翻译工作:用户在输入框中输入需 要翻译的内容:“在美国九一一恐怖攻击周年左右,东南亚各地的西方外交使节团纷纷关 闭。”

2.系统开始翻译,翻译结束后提供格式化的初始翻译结果:”the 11september terrorist  attacks in the united states,southeast asia around the anniversary of the western diplomatic  missions have been closed.”。

3.观察步骤11中生成的初始翻译,寻找在翻译过程中短语调序问题严重、与标准翻译 的顺序差别较大、应该作为整体翻译而非分开翻译的片段:“恐怖攻击周年”应作为整 体被翻译,而系统将“周年”的翻译调序到第二个子句,此时用户鼠标点击片段的起 始词(恐怖)和结束词(周年),提供给系统源语言正确切分信息。

4.系统接收到用户提供的限制片段起始词和结束词信息,分析源端句子的词结构,确定 用户所限制的具体片段信息,源端句子的第一个子句的词结构应分词为“在美国九一 一恐怖攻击周年左右”,根据起始词和结束词,确定用户限制的片段为“恐怖攻击周 年”。

5.在机器翻译中,句子的解码(翻译)过程是短语翻译假设扩展的过程,当解码过程第 一次进用户入限制的片段中时,cflag置为true,表示此时需要进行限制。由于在机器翻 译的解码过程中可以选择不同短语进行假设扩展,在本例中,如果选择的短语与限制 的片段(“恐怖攻击周年”)有重叠,如选择了“攻击”,则可以进行翻译假设扩展, 得到下一个翻译假设;如果选择的短语是“东南亚”,则与限制的片段无重叠,则不 用该短语进行翻译假设扩展,保证用户限制的片段在翻译过程中被翻译为一个整体。 当用户限制的片段被完全翻译(扩展)后,cflag置为false,此时限制解除,剩余的翻 译假设仍然按照机器翻译的传统流程进行扩展。

6.利用上述的切分片段信息对源语言进行重新翻译,得到新的翻译结果:”the 11 september terrorist attacks anniversary in the united states,southeast asia across western  diplomatic missions have been closed.”。达到翻译要求,结束。

本发明的目标是为了在同样的环境下,提供更利于用户使用的交互方式,让用户提 供更简单的信息,同时更高效地利用用户提供的信息,更大程度地提高系统的翻译能 力。

表1所示为进行实验的配置。表2为标准的机器翻译系统与本系统中的交互方式: 用户提供源语言的一个正确翻译切分信息,系统接收到该信息之后重新解码,得到的 翻译结果的质量的对比。我们使用的基线系统是标准的基于短语的机器翻译系统。实 验数据是从MT03.ce.dev中随机抽取的120句中文句子。首先,我们用基线系统对这 120句进行翻译,利用我们的评价指标BLEU进行打分;其次,对这120句中文句子, 人工利用本专利要求的交互方式限制翻译片段,并重新解码,得到新的翻译结果。表3 所示为利用人工提供正确翻译结果与利用人工提供片段切分信息,在该120句上所需 要的时间对比。

句子总数 120 需要限制的句子数 71

表1

  BLEU 基线系统 30.23 人工提供正确切分 32.78

表2

  交互时间(单位:分钟) 操作 人工提供正确翻译 90 点击、选择、输入等

人工提供正确切分 60 点击

表3

由表1可以看出,大部分句子(71/120)存在调序问题,本发明的方法可以针对此 种问题进行限制,从而调整翻译结构。

从表2可以看出,本发明的方法对比基线系统的技术支持用户简单的片段切分信 息输入,可以起到帮助机器提高翻译水平的效果,更大程度上地利用了用户提供的信 息,提高了翻译修正的效率和质量,其提高程度也是统计上显著的。

从表3可以看出,对比已有的辅助翻译技术直接更改、输入短语或句子的翻译的 方法,在不人为直接提供新的翻译的前提下,通过提供简单的片段信息,能在一定程 度上节省用户交互的时间。

本发明提供了一种计算机中限定翻译片段的交互式翻译方法,具体实现该技术方 案的方法和途径很多,以上所述是本发明的优选实施方式。本发明基于短语机器翻译 系统,在基于短语的机器翻译系统中,加入限定短语边界并重新解码的交互式翻译方 法,使得用户对翻译错误的修正效率提高。在具体实验中,本发明提出的方法与简单 的后编辑等简单的交互方法相比,需要用户提供的信息更少,对用户提供的信息的利 用效率更高,减少了用户的工作量。应当指出,对于本技术领域的普通技术人员来说, 在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视 为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号