首页> 中国专利> 一种在自动化翻译处理中自动保护标记语言中标记方法

一种在自动化翻译处理中自动保护标记语言中标记方法

摘要

本发明为一种在自动化翻译处理中自动保护标记语言中的标记的方法,包括:通过前处理模块,将原文中标记位置信息提取出,并保存到缓存模块中。通过自动化翻译引擎,将原文与译文各字符段之间的对齐信息提取出,并保存到缓存模块中。在提取原文与译文各字符段之间的对齐信息的同时,自动化翻译引擎将原文自动翻译为译文。后处理模块根据保存在缓存模块中的原文与译文各字符段之间的对齐信息,将缓存的标记重新插入译文。用户使用时,减少翻译在译后编辑中的工作量,翻译聚焦于语言,减少对标记语言关注度,提升效率,加快产品上市时间。自动将标记精准插入到译文,避免人为插入标记或调整时引入的错误,提升翻译质量,减少后续质量保证成本。

著录项

  • 公开/公告号CN103793368A

    专利类型发明专利

  • 公开/公告日2014-05-14

    原文格式PDF

  • 申请/专利权人 上海勇金懿信息科技有限公司;

    申请/专利号CN201210424599.2

  • 发明设计人 杜金林;朱懿;杜勇;

    申请日2012-10-31

  • 分类号G06F17/24;G06F17/28;

  • 代理机构

  • 代理人

  • 地址 200439 上海市宝山区殷高西路101号高景国际大厦306室

  • 入库时间 2024-02-20 00:07:10

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-10-14

    未缴年费专利权终止 IPC(主分类):G06F17/24 专利号:ZL2012104245992 申请日:20121031 授权公告日:20161221

    专利权的终止

  • 2016-12-21

    授权

    授权

  • 2016-03-02

    专利申请权的转移 IPC(主分类):G06F17/24 登记生效日:20160205 变更前: 变更后: 申请日:20121031

    专利申请权、专利权的转移

  • 2015-04-15

    专利申请权的转移 IPC(主分类):G06F17/24 变更前: 变更后: 登记生效日:20150326 申请日:20121031

    专利申请权、专利权的转移

  • 2014-12-03

    专利申请权的转移 IPC(主分类):G06F17/24 变更前: 变更后: 登记生效日:20141106 申请日:20121031

    专利申请权、专利权的转移

  • 2014-06-11

    实质审查的生效 IPC(主分类):G06F17/24 申请日:20121031

    实质审查的生效

  • 2014-05-14

    公开

    公开

查看全部

说明书

技术领域

本发明涉及一种在自动化翻译处理中自动保护标记语言中的标记的方法,用于CAT软件或者多语言翻译系统中的开发和应用,属多语言机器翻译技术领域。 

背景技术

标记语言最具代表性的文档是 HTML和XML。 

HTML是一种规范,一种标准,它通过标记符号来标记要显示的网页中的各个部分。网页文件本身是一种文本文件,通过在文本文件中添加标记符,可以告诉浏览器如何显示其中的内容(如:文字如何处理,画面如何安排,图片如何显示等)。浏览器按顺序阅读网页文件,然后根据标记符解释和显示其标记的内容,对书写出错的标记将不指出其错误,且不停止其解释执行过程,编制者只能通过显示效果来分析出错原因和出错部位。但需要注意的是,对于不同的浏览器,对同一标记符可能会有不完全相同的解释超文本标记语言(15张),因而可能会有不同的显示效果。 

HTML之所以称为超文本标记语言,是因为文本中包含了所谓“超级链接”点。所谓超级链接,就是一种URL指针,通过激活(点击)它,可使浏览器方便地获取新的网页。这也是HTML获得广泛应用的最重要的原因之一。 

网页的本质就是HTML,通过结合使用其他的Web技术(如:脚本语言、CGI、组件等),可以创造出功能强大的网页。因而,HTML是Web编程的基础,也就是说万维网是建立在超文本基础之上的。 

可扩展标记语言 (eXtensible Markup Language, XML) ,用于标记电子文件使其具有结构性的标记语言,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。XML是标准通用标记语言 (SGML) 的子集,非常适合 Web 传输。XML 提供统一的方法来描述和交换独立于应用程序或供应商的结构化数据。 

XML与HTML的设计区别是:XML的核心是数据,其重点是数据的内容。而HTML 被设计用来显示数据,其重点是数据的显示。 

XML和HTML语法区别:HTML的标记不是所有的都需要成对出现,XML则要求所有的标记必须成对出现;HTML标记不区分大小写,XML则大小敏感,即区分大小写。 

所有标记语言在自动化翻译中能否对标记的正确匹配和保护,直接影响到翻译的准确性和翻译效率。 

机器翻译的研究是建立在语言学、数学和计算机科学这3门学科的基础之上的。语言学家提供适合于计算机进行加工的词典和语法规则,数学家把语言学家提供的材料形式化和代码化,计算机科学家给机器翻译提供软件手段和硬件设备,并进行程序设计。缺少上述任何一方面,机器翻译就不能实现,机器翻译效果的好坏,也完全取决于这3个方面的共同努力。 

发展道路 

机器翻译的研究历史可以追溯到 20 世纪三四十年代。20世纪30年代初,法国科学家G.B.阿尔楚尼提出了用机器来进行翻译的想法。1933年,苏联发明家П.П.特罗扬斯基设计了把一种语言翻译成另一种语言的机器,并在同年9月5日登记了他的发明;但是,由于30年代技术水平还很低,他的翻译机没有制成。1946 年,第一台现代电子计算机 ENIAC 诞生,随后不久,信息论的先驱、美国科学家 W. Weaver 和英国工程师A. D. Booth 在讨论电子计算机的应用范围时,于1947年提出了利用计算机进行语言自动翻译的想法。1949年,W. Weaver 发表《翻译备忘录》 ,正式提出机器翻译的思想。走过六十年的风风雨雨,机器翻译经历了一条曲折而漫长的发展道路,学术界一般将其划分为如下四个阶段:

1.开创期(1947-1964)

1954 年,美国乔治敦大学(Georgetown University) 在 IBM 公司协同下, 用 IBM-701计算机首次完成了英俄机器翻译试验,向公众和科学界展示了机器翻译的可行性,从而拉开了机器翻译研究的序幕。从20世纪50年代开始到20世纪60年代前半期,机器翻译研究呈不断上升的趋势。美国和前苏联两个超级大国出于军事、政治、经济目的,均对机器翻译项目提供了大量的资金支持,而欧洲国家由于地缘政治和经济的需要也对机器翻译研究给予了相当大的重视,机器翻译一时出现热潮。这个时期机器翻译虽然刚刚处于开创阶段,但已经进入了乐观的繁荣期。

2.受挫期(1964-1975) 

1964年,为了对机器翻译的研究进展作出评价,美国科学院成立了语言自动处理咨询委员会(Automatic Language Processing Advisory Committee,简称ALPAC委员会),开始了为期两年的综合调查分析和测试。1966年11月,该委员会公布了一个题为《语言与机器》的报告(简称ALPAC报告) ,该报告全面否定了机器翻译的可行性,并建议停止对机器翻译项目的资金支持。这一报告的发表给了正在蓬勃发展的机器翻译当头一棒,机器翻译研究陷入了近乎停滞的僵局。机器翻译步入萧条期。

3.恢复期(1975-1989) 

进入 70 年代后,随着科学技术的发展和各国科技情报交流的日趋频繁,国与国之间的语言障碍显得更为严重,传统的人工作业方式已经远远不能满足需求,迫切地需要计算机来从事翻译工作。 同时, 计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处理上的应用,从技术层面推动了机器翻译研究的复苏,机器翻译项目又开始发展起来,各种实用的以及实验的系统被先后推出。中国的“784”工程给予了机器翻译研究足够的重视,80 年代中期以后,我国的机器翻译研究发展进一步加快,首先研制成功了 KY-1 和MT/EC863 两个英汉机译系统,表明我国在机器翻译技术方面取得了长足的进步。

4.新时期(1990~现在) 

随着 Internet 的普遍应用,世界经济一体化进程的加速以及国际社会交流的日渐频繁,传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求,人们对于机器翻译的需求空前增长,机器翻译迎来了一个新的发展机遇。国际性的关于机器翻译研究的会议频繁召开,中国也取得了前所未有的成就,相继推出了一系列机器翻译软件,在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。

5. 机器翻译的过程 

整个机器翻译的过程可以分为原文分析、原文译文转换和译文生成3个阶段。在具体的机器翻译系统中,根据不同方案的目的和要求,可以将原文译文转换阶段与原文分析阶段结合在一起,而把译文生成阶段独立起来,建立相关分析独立生成系统。在这样的系统中,原语分析时要考虑译语的特点,而在译语生成时则不考虑原语的特点。在搞多种语言对一种语言的翻译时,宜于采用这样的相关分析独立生成系统。也可以把原文分析阶段独立起来,把原文译文转换阶段同译文生成阶段结合起来,建立独立分析相关生成系统。在这样的系统中,原语分析时不考虑译语的特点,而在译语生成时要考虑原语的特点,在搞一种语言对多种语言的翻译时,宜于采用这样的独立分析相关生成系统。还可以把原文分析、原文译文转换与译文生成分别独立开来,建立独立分析独立生成系统。在这样的系统中,分析原语时不考虑译语的特点,生成译语时也不考虑原语的特点,原语译语的差异通过原文译文转换来解决。在搞多种语言对多种语言的翻译时,宜于采用这样的独立分析独立生成系统。

6.中国机器翻译简史 

中国机器翻译研究起步于1957年,是世界上第4个开始搞机器翻译的国家,60年代中期以后一度中断,70年代中期以来有了进一步的发展。现在,中国社会科学院语言研究所、中国科学技术情报研究所、中国科学院计算技术研究所、黑龙江大学、哈尔滨工业大学等单位都在进行机器翻译的研究;上机进行过实验的机器翻译系统已有十多个,翻译的语种和类型有英汉、俄汉、法汉、日汉、德汉等一对一的系统,也有汉译英、法、日、俄、德的一对多系统(FAJRA系统)。此外,还建立了一个汉语语料库和一个科技英语语料库。中国机器翻译系统的规模正在不断地扩大,内容正在不断地完善。

机器翻译的质量问题误差难免 

很多人对机器翻译有误解,他们认为机器翻译偏差大,不能帮人们解决任何问题。其实其误差在所难免,原因在于,机器翻译运用语言学原理,机器自动识别语法,调用存储的词库,自动进行对应翻译,但是因语法、词法、句法发生变化或者不规则,出现错误是难免的。 

现有技术的缺点:1) 标记无法保留在原文中的位置,导致翻译人员在PE过程中,需要手动将译文末尾的标记对,按照原文的顺序和意思,重新插入到译文中,大大增加了翻译人员的工作量,降低了有效产出。尤其当原文中存在大量标记时,此缺点尤为明显。 

2)由于翻译人员手动插入标记对,可能存在人为差错,直接影响了译文的质量。 

发明内容

为解决上述问题,本发明旨在提供一种在自动化翻译处理中自动保护标记语言中的标记的方法。本发明的技术方案如下: 

一种在自动化翻译处理中自动保护标记语言中的标记的方法,包括以下步骤: 

1)通过前处理模块,将原文中的标记位置信息提取出,并保存到缓存模块中。

2)通过自动化翻译引擎,将原文与译文各字符段之间的对齐信息提取出,并保存到缓存模块中。 

3)在提取原文与译文各字符段之间的对齐信息的同时,自动化翻译引擎将原文自动翻译为译文。 

4)后处理模块根据保存在缓存模块中的原文与译文各字符段之间的对齐信息,将缓存的标记重新插入译文。 

以上所述的在自动化翻译处理中自动保护标记语言中的标记的方法,作为优选方案:还包括: 

1) 前处理模块:提供将原文中标记位置信息的提取出并保存到缓存模块中待后续使用的功能。

2) 缓存模块:提供临时保存原文中标记位置信息、原文字符段与译文字符段之间的对齐信息的功能。 

3) 自动翻译引擎:提供将一行文本从一个语言翻译到另一个语言的自动化翻译功能,以及提取原文与译文各字符段之间的对齐信息的功能。 

本发明的在自动化翻译处理中自动保护标记语言中的标记的方法,其有益效果是: 减少后编辑时间,提升工作效率,确保标记对的准确性,有效节约成本。 

在自动化翻译处理中自动保护标记语言中的标记的方法,可带来以下有益效果: 

1)  大幅减少翻译人员在译后编辑(PE)过程中的工作量,使翻译人员将注意力聚焦于语言上,减少对标记语言的关注度,从而提升译后编辑(PE)效率,减少翻译相关产品的Time-To-Market时间。

2)  自动将标记精准插入到译文中,避免翻译人员在译后编辑(PE)过程中人为插入标记或调整标记位置时引入的错误,有效提供翻译质量,大大减少后续质量保证(QA)成本。 

附图说明

图1. 在自动化翻译处理中自动保护标记语言中的标记的方法。 

具体实施方案

缩略语和关键术语定义: 

HTML Hyper Text Markup Language 超文本标记语言

XML eXtensible Markup Language 可扩展标记语言

AT/MT Automatic Translation/Machine Translation 自动化翻译,又称机器翻译

PE Post-Editing 译后编辑,指对自动化翻译后的译文进行的人工编辑,以确保翻译质量满足要求

QA  Quality assurance 质量保证,指对译后编辑的进行再审校,以确保翻译质量的过程。

具体实施例如下: 

在自动化翻译处理中自动保护标记语言中的标记的方法,包括以下步骤:

1)  通过前处理模块,将原文中的标记位置信息提取出,并保存到缓存模块中。

2)  通过自动化翻译引擎,将原文与译文各字符段之间的对齐信息提取出,并保存到缓存模块中。 

3)  在提取原文与译文各字符段之间的对齐信息的同时,自动化翻译引擎将原文自动翻译为译文。 

4)  后处理模块根据保存在缓存模块中的原文与译文各字符段之间的对齐信息,将缓存的标记重新插入译文。 

在自动化翻译处理中自动保护标记语言中的标记的方法,具体还包括: 

1)  前处理模块:提供将原文中标记位置信息的提取出并保存到缓存模块中待后续使用的功能。

2)  缓存模块:提供临时保存原文中标记位置信息、原文字符段与译文字符段之间的对齐信息的功能。 

3)  自动翻译引擎:提供将一行文本从一个语言翻译到另一个语言的自动化翻译功能,以及提取原文与译文各字符段之间的对齐信息的功能。 

4)  后处理模块:提供将缓存的标记根据原文与疑问各字符段之间的对齐信息,重新自动并准确插入译文的功能。 

通过应用本发明技术,可带来以下有益效果: 

1)  大幅减少翻译人员在PE过程中的工作量,使翻译人员将注意力聚焦于语言上,减少对标记语言的关注度,从而提升PE效率,减少翻译相关产品的Time-To-Market时间。

2)  自动将标记精准插入到译文中,避免翻译人员在PE过程中人为插入标记或调整标记位置时引入的错误,有效提供翻译质量,大大减少后续QA成本。 

每个厂商都希望用户在翻译过程中,确保标记对准确性,而现有技术和真实的自动化翻译场景是很难得到保证,给后期的译后编辑(PE)和质量保证带来了人力成本的提升,这样将浪费较多的人力、物力和财力。从用户的角度考虑,一种在自动化翻译处理中自动保护标记语言中的标记的方法,在保证标记语言的标记对一致性的同时,将提升翻译的效率,节约成本,减少后期质量检查的时间,将是相当可贵。采用本发明的技术方案,可得到有益结果大幅减少翻译人员在译后编辑(PE)过程中的工作量,使翻译人员将注意力聚焦于语言上,减少对标记语言的关注度,从而提升译后编辑(PE)效率,减少翻译相关产品的Time-To-Market时间。自动将标记精准插入到译文中,避免翻译人员在译后编辑(PE)过程中人为插入标记或调整标记位置时引入的错误,有效提供翻译质量,大大减少后续质量检查(QA)的成本。 

以上所述,仅为本发明的较佳实施例而已,本技术领域的技术人员围绕该精神所做的任何非创造性改进,皆属于本发明的保护范围。 

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号