首页> 中国专利> 一种译文检查方法及其系统

一种译文检查方法及其系统

摘要

本发明提供一种译文检查方法及其系统,包括初始化处理和检查判定处理。所述初始化处理,基于一批语料来训练二元语法模型,作为检查评分模型,为所述检查判定处理时给译文打分提供依据。所述检查判定处理,通过所述检查评分模型给译文打分,将译文得分与预设判定阈值比较,将得分小于所述预设判定阈值的译文判定为“错误”,否则判定为“正确”。上述技术方案有效避免了现有技术中对译文检测方法很大程度上依赖于双语专家或高质量的人工翻译译文作为参照,同时不能判断正确与否,只能判断评测译文的好差程度的问题。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-11-01

    专利权的转移 IPC(主分类):G06F17/27 专利号:ZL2013104565482 登记生效日:20221020 变更事项:专利权人 变更前权利人:北大方正集团有限公司 变更后权利人:新方正控股发展有限责任公司 变更事项:地址 变更前权利人:100871 北京市海淀区成府路298号方正大厦9层 变更后权利人:519031 广东省珠海市横琴新区华金街58号横琴国际金融中心大厦3007 变更事项:专利权人 变更前权利人:北京方正阿帕比技术有限公司 北京大学 变更后权利人:北京方正阿帕比技术有限公司 北京大学

    专利申请权、专利权的转移

  • 2018-08-07

    授权

    授权

  • 2015-05-13

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20130929

    实质审查的生效

  • 2015-04-15

    公开

    公开

说明书

技术领域

本发明涉及一种译文检查方法及其系统,具体是一种基于二元语法模型 的译文检查方法及其系统,属于电数字数据处理方法技术领域。

背景技术

近年来,机器翻译(Machine Translation)的应用越来越广泛,而且对 机器翻译译文的质量要求越来越高。在翻译领域内,即使最好的翻译人员也 很难达到翻译界所要求的最高标准“信、达、雅”,因此机器翻译评价成为一 个重要而困难的课题。

由于要对译文质量评价至少要懂得两种语言,译文质量评价成为一项难 度很大的智力活动,因此对机器翻译的译文质量的评价通常由专家来进行, 而且价格成本不菲,评价过程也非常耗时而且不可重用。

一般机器译文的评价出发点为“有多好”和“哪个更好”,如果在人工对 译文评价之前,将译文中“不正确”或“错误”的译文筛选出来,将大大缩 减人工评价译文的成本和时间。

在翻译需求中,有一类是针对领域短语的翻译,由于领域短语包含的文 字不多且通常具备显著的领域特征,因此通过一定量的领域语料,能够从不 同角度发现其规律,并建立模型。

现有技术中IBM提出的基于N元匹配的BLEU机器翻译评测方法需要不同 的双语专家对原文进行翻译得到参考译文,然后计算机器译文与这多个参考 译文的字符串相似度,从而实现对机器翻译译文质量的评测。该方法进行评 测译文时,需要提供人工翻译的高质量译文作为参照,获取大量高质量译文 的成本很高;同时在很大程度上依赖于双语专家,其成本仍然很大;另外该 方法只能评测译文有“多好”,而不能判断翻译译文是否“错误”。

现有技术中还公开了一种机器翻译自纠错的方法,首先定义翻译错误类 别,将翻译错误类别定义为正确、一般错误、次序错误、集外词错误、其他 错误五类;训练错误分类器,对翻译错误进行分类;将翻译映射到源语言端 并构建复述词图网络;最后得到词图解码并加以校正。该方法首先通过抽取 与具体语言相关的字、词、词性标注、句法、语法、语义特征建立语料库, 构造训练模型,需要大量语料的准备有很大的难度;其次该方法是基于动态 概率潜变量模型的算法也需要大规模的语料准备数据;另外,该方法只能检 查所定义的翻译错误类别,如果译文的错误类别不属于所定义的翻译错误类 别,则不能判断翻译译文是否“错误”。

发明内容

本发明所要解决的技术问题是现有技术中译文检测方法在很大程度上依 赖于双语专家,同时不能判断正确与否,只能判断评测译文的好差程度,从 而提供一种通过学习语料,训练出二元语法模型,通过该模型自动将相关的 海量译文中“不正确”或“错误”的短语译文过滤掉的译文检查方法。

为解决上述技术问题,本发明是通过以下技术方案实现的:

一种译文检查方法,包括初始化处理和检查评定处理,

所述初始化处理,基于一批语料,通过统计语料二元切分条目的概率信 息,来获得二元语法模型,作为检查评分模型,为所述检查判定处理时给译 文打分提供依据;

所述检查评定处理,通过所述检查评分模型给译文打分,将译文得分与 预设判定阈值比较,将得分小于所述预设判定阈值的译文判定为“错误”,否 则判定为“正确”。

所述初始化处理的步骤如下:

获取文本集D,d∈D,其中d表示所述文本集D的一个文本;

将所述文本集D中的每一个文本d分句后获得的句子进行二元切分,并 将每个二元切分条目(wiwi+1)存入列表L,其中,i=1,2,…,n-1,n为一个句子所 包含的字符个数,wi表示句子中的一个字符,wi+1表示字符wi后的一个字符;

将所述列表L中的每个二元切分条目存入集合Q,根据所述集合Q计算以 wi开始时wj出现的概率fp(wi,wj),其中wi、wj分别表示二元切分条目中的第一 字符和第二字符;

将计算得到的所有fp(wi,wj)保存为所述检查评分模型。

所述检查判定处理的步骤如下:

获取短语的译文;

对所述译文做二元切分,获得所述译文的二元切分条目;

根据所述检查评分模型对所述译文进行打分评估;

根据所述译文的评分判定所述译文是否错误。

所述将所述文本集D中的每一个文本d分句后获得的句子进行二元切分, 并将每个二元切分条目(wiwi+1)存入列表L的处理包括如下步骤:

对所述集合D中的每一个文本d分句,得到m个句子s1,s2,…,sm,其中m 为非负整数;

对所述每一个句子si做二元切分,通过si得到k个二元切分条目 (w1w2)(w2w3)…(wkwk+1),每一个句子si包含的字符的个数为k+1个;

将每个二元切分条目存入列表L。

所述计算以wi开始时wj出现的概率fp(wi,wj)的方法为:

fp(wi,wj)=ft(wi,wj)/ft(wi,*)

其中,ft(wi,wj)表示以wi开始且wj结尾的二元切分条目在列表L中的出现 次数,ft(wi,*)表示以wi开始的二元切分条目在列表L中的出现次数。

所述计算以wi开始时wj出现的概率fp(wi,wj)的方法为:

从列表L中得到所有以wi开始的二元切分条目,将二元切分条目中的第 二个字符wj加入字符串S;

将所述字符串S中的每个字符存入集合T;

统计所述字符串S的长度n,对于集合T中的每一个字符wj,统计所述字 符wj在字符串S中出现的次数m;

则以wi开始时wj出现的概率fp(wi,wj)为

fp(wi,wj)=m/n

其中,m,n的初始值为零。

所述对所述译文做二元切分的方法与所述初始化处理的方法相同。

所述二元切分采用CJK分词器进行二元切分。

所述对所述译文进行打分评估的方法为:

Score=Min{Scorei,i=1,2,…,n-1}

其中,Scorei是一条二元切分条目的评分,Scorei=fp(wi,wj),fp(wi,wj)为 译文中的二元切分条目(wiwj)在模型中对应的值。

所述对所述译文进行打分评估的方法为:

Score=avg{Scorei,i=1,2,…,n-1}

其中,Scorei是一条二元切分条目的评分,Scorei=fp(wi,wj),fp(wi,wj)为 译文中的二元切分条目(wiwj)在模型中对应的值。

所述对所述译文进行打分评估的方法为:

Score=∏Scorei

其中,i=1,2,…,n-1,Scorei是一条二元切分条目的评分,Scorei=fp(wi,wj), fp(wi,wj)为译文中的二元切分条目(wiwj)在模型中对应的值。

所述评分判定的方法为:

其中,δ为所述预设判定阈值,0<δ≤1。

所述预设判定阈值δ的取值范围为0<δ≤0.3。

所述预设判定阈值δ=0.00055。

所述将所有fp(wi,wj)保存在文本文件或二进制文件中。

一种译文检查系统,包括初始化处理装置和检查评定处理装置,

所述初始化处理装置,用于基于一批语料,通过统计语料二元切分条目 的概率信息,来获得二元语法模型,作为检查评分模型,为所述检查判定处 理时给译文打分提供依据;

所述检查评定处理装置,用于通过所述检查评分模型给译文打分,将译 文得分与预设判定阈值比较,将得分小于所述预设判定阈值的译文判定为“错 误”,否则判定为“正确”。

所述初始化处理装置包括:

获取文本集子装置,用于获取文本集D,d∈D,其中d表示所述文本集D 的一个文本;

第一二元切分子装置,用于将所述文本集D中的每一个文本d分句后获 得的句子进行二元切分,并将每个二元切分条目(wiwi+1)存入列表L,其中, i=1,2,…,n-1,n为一个句子所包含的字符个数,wi表示句子中的一个字符,wi+1表示字符wi后的一个字符;

概率计算子装置,用于将所述列表L中的每个二元切分条目存入集合Q, 根据所述集合Q计算以wi开始时wj出现的概率fp(wi,wj)子装置,其中wi、wj分 别表示二元切分条目中的第一字符和第二字符;

检查评分模型生成子装置,用于将计算得到的所有fp(wi,wj)保存为所述检 查评分模型;

所述检查判定处理装置包括:

获取短语译文子装置,用于获取短语的译文;

第二二元切分子装置,用于对所述译文做二元切分,获得所述译文的二 元切分条目;

译文打分评估子装置,用于根据所述检查评分模型对所述译文进行打分 评估;

判定子装置,用于根据所述译文的评分判定所述译文是否错误。

所述第一二元切分子装置包括:

文本分句模块,用于对所述集合D中的每一个文本d分句,得到m个句 子s1,s2,…,sm,其中m为非负整数;

文本分句切分模块,用于对所述每一个句子si做二元切分,通过si得到k 个二元切分条目(w1w2)(w2w3)…(wkwk+1),每一个句子si包含的字符的个数为k+1 个;

保存模块,用于将每个二元切分条目存入列表L。

所述计算以wi开始时wj出现的概率fp(wi,wj)的方法为:

fp(wi,wj)=ft(wi,wj)/ft(wi,*)

其中,ft(wi,wj)表示以wi开始且wj结尾的二元切分条目在列表L中的出现 次数,ft(wi,*)表示以wi开始的二元切分条目在列表L中的出现次数。

所述计算以wi开始时wj出现的概率fp(wi,wj)的方法为:

从列表L中得到所有以wi开始的二元切分条目,将二元切分条目中的第 二个字符wj加入字符串S;

将所述字符串S中的每个字符存入集合T;

统计所述字符串S的长度n,对于集合T中的每一个字符wj,统计所述字 符wj在字符串S中出现的次数m;

则以wi开始时wj出现的概率fp(wi,wj)为

fp(wi,wj)=m/n

其中,m,n的初始值为零。

所述对所述译文做二元切分的方法与所述初始化处理阶段的方法相同。

所述二元切分采用CJK分词器进行二元切分。

所述对所述译文进行打分评估的方法为:

Score=Min{Scorei,i=1,2,…,n-1}

其中,Scorei是一条二元切分条目的评分,Scorei=fp(wi,wj),fp(wi,wj)为 译文中的二元切分条目(wiwj)在模型中对应的值。

所述对所述译文进行打分评估的方法为:

Score=avg{Scorei,i=1,2,…,n-1}

其中,Scorei是一条二元切分条目的评分,Scorei=fp(wi,wj),fp(wi,wj)为 译文中的二元切分条目(wiwj)在模型中对应的值。

所述对所述译文进行打分评估的方法为:

Score=∏Scorei

其中,i=1,2,…,n-1,Scorei是一条二元切分条目的评分,Scorei=fp(wi,wj), fp(wi,wj)为译文中的二元切分条目(wiwj)在模型中对应的值。

所述评分判定的方法为:

其中,δ为所述预设判定阈值,0<δ≤1。

所述预设判定阈值δ的取值范围为0<δ≤0.3。

所述预设判定阈值δ=0.00055。

所述所有fp(wi,wj)保存在文本文件或二进制文件中。

本发明的上述技术方案相比现有技术具有以下优点:

(1)本发明所述的译文检查方法,包括初始化处理和检查判定处理。所 述初始化处理,基于一批语料,通过统计所述语料二元切分条目的概率信息, 来获得二元语法模型,作为检查评分模型,为所述检查判定处理时给译文打 分提供依据。所述检查判定处理,通过所述检查评分模型给译文打分,将译 文得分与预设判定阈值比较,将得分小于所述预设判定阈值的译文判定为“错 误”,否则判定为“正确”。上述译文检查方法有效避免了现有技术中对译文 检测方法很大程度上依赖于双语专家或高质量的人工翻译译文作为参照,同 时不能判断正确与否,只能判断评测译文的好差程度的问题。

(2)本发明所述的译文检查方法,采用二元语法切分,采用CJK分词器 进行二元切分,算法简单,运算速度快,易于实现。

(3)本发明所述的译文检查方法,以wi开始且wj结尾的二元切分条目在 列表L中的出现次数和以wi开始的二元切分条目在列表L中的出现次数的比 值作为以wi开始时wj出现的概率fp(wi,wj)的值,构思巧妙,算法简单,易于 实现。

(4)本发明所述的译文检查方法,计算以wi开始时wj出现的概率 fp(wi,wj)的方法为统计所述字符串S的长度n和所述集合T中的每一个字符wj在字符串S中出现的次数m,然后以字符串S的长度n和所述集合T中的每一 个字符wj在字符串S中出现的次数m的比值作为以wi开始时wj出现的概率 fp(wi,wj)的值,构思巧妙,算法简单,易于实现。

(5)本发明所述的译文检查方法,将切分完的二元切分条目存入列表, 方便后续计算时取词,也便于建立模型。

(6)本发明所述的译文检查方法,给译文评分的方法采用直接取译文中 最小的评分作为整个译文的评分,通过分值的大小可以直接判断出译文是否 错误。

(7)本发明所述的译文检查方法,给译文评分的方法采用取译文中每个 二元切分条目对应概率的平均值,可以有效避免因一些二元切分条目没有纳 入模型造成的误评分。

(8)本发明所述的译文检查方法,给译文评分的方法采用取译文中评分 的乘积作为整个译文的评分,在判断整个译文的正确与否的同时可以根据分 值的大小判断整个译文的翻译质量。

(9)本发明所述的译文检查方法,将打分结果与预设判定阈值进行比较, 直接自动将相关的海量译文中“不正确”或“错误”的短语译文过滤掉。

(10)本发明所述的译文检查系统,利用译文检查方法,有效避免了现 有技术中对译文检测方法很大程度上依赖于双语专家或高质量的人工翻译译 文作为参照,同时不能判断正确与否,只能判断评测译文的好差程度的问题。

附图说明

为了使本发明的内容更容易被清楚的理解,下面结合附图,对本发明作 进一步详细的说明,其中,

图1是本发明一个实施例的一种译文检查方法的方法流程图;

图2是本发明一个实施例的一种译文检查方法的获取地理、历史和文学 领域的语料示意图;

图3是本发明一个实施例的一种译文检查方法的部分二元切分条目统 计概率示意图;

图4是本发明一个实施例的不同的翻译系统对一段英语短语的译文二 元切分后打分并判定结果示意图。

具体实施方式

实施例1:

本实施例中提供一种译文检查方法,其方法流程图如图1所示,其包括 初始化处理和检查评定处理。

所述初始化处理,基于一批语料,所述语料为某领域的语料,通过统计 领域语料二元切分条目的概率信息,来获得二元语法模型,作为检查评分模 型,为所述检查判定处理时给译文打分提供依据。

所述检查评定处理,通过所述检查评分模型给领域译文打分,将译文得 分与预设判定阈值比较,将得分小于所述预设判定阈值的译文判定为“错误”, 否则判定为“正确”。

所述初始化处理的步骤如下:

S11:获取一批某领域的文本集D,d∈D,其中d表示所述文本集D的一 个文本。

根据通过若干个某领域内的关键词或图书分类号获取一批某领域的文本 集D={di,i=1,2,…,n},通过图书分类号获取地理、历史和文学领域的语料保存 为文件,如图2所示。

S12:将所述文本集D中的每一个文本d分句进行二元切分,并将每个二 元切分条目(wiwi+1)存入列表L,其中wi表示句子中的一个字符,wi+1表示字符wi后的一个字符。将切分完的二元切分条目存入列表中,方便后续的计算取词, 也便于建立模型。

在本实施中,所述二元切分采用CJK分词器进行二元切分,算法简单, 运算速度快,易于实现。在其他实施例中,还可以采用其他程序实现,例如 定制的程序,只需达到二元切分的效果即可。

所述步骤S12包括如下步骤:

S121:对所述集合D中的每一个文本d分句,得到m个句子s1,s2,…,sm

S122:对所述每一个句子si做二元切分,通过si得到k个二元切分条 目(w1w2)(w2w3)…(wkwk+1),每一个句子si包含的字符的个数为k+1个。

例如:有一个字符串文本S由n个字符组成,按照字符的次序排序, 该字符串文本S表示如下:

S=w1w2…wn

其中,wi表示在字符串S中的第i个字符,i=1,2,…,n。

若对该字符串S进行二元切分,则该字符串S的二元切分结果Rs表 示为:

Rs=(w1w2)(w2w3)…(wiwi+1)…(wn-1wn)

其中,wiwi+1表示该字符串S的第i个二元切分条目。

S123:将每个二元切分条目(wiwi+1)存入列表L。

S13:将所述列表L中的每个二元切分条目存入集合Q,根据所述集合Q 计算以wi开始时wj出现的概率fp(wi,wj)。

所述集合Q中不存在重复的二元切分条目,所述集合Q的二元切分条目 数小于等于列表L的二元切分条目数。对所述集合Q中的每个二元切分条目 (wiwj)计算以wi开始时wj出现的概率fp(wi,wj),计算以wi开始时wj出现的概率 fp(wi,wj)的方法为:

fp(wi,wj)=ft(wi,wj)/ft(wi,*)

其中,ft(wi,wj)表示以wi开始且wj结尾的二元切分条目在列表L中的出现 次数,ft(wi,*)表示以wi开始的二元切分条目在列表L中的出现次数。该算法 构思巧妙,算法简单,易于实现。

S14:将计算得到的所有fp(wi,wj)保存为所述检查评分模型。即将所有 fp(wi,wj)保存在文本文件或二进制文件中。

通过对语料中每个文本进行分句、二元切分、统计二元切分结果等步骤, 最后保存为模型,得到以“要”开头的部分二元切分条目及其统计概率如图3 所示。

所述检查判定处理的步骤如下:

S21:获取所述领域内短语的译文。

例如:“Future Sound of Retro”在百度翻译系统中翻译为“复古未来 的声音”。如图4所示。

S22:对所述译文做二元切分,获得所述译文的二元切分条目。对所述译 文做二元切分的方法与所述步骤S12的方法相同。

如对译文“复古未来的声音”进行二元切分,得到的二元切分条目为:“复 古”、“古未”、“未来”、“来的”、“的声”、“声音”。

S23:根据所述检查评分模型对所述译文进行打分评估。本实施中,所述 译文进行打分评估的方法为:

Score=Min{Scorei,i=1,2,…,n-1}

其中,Scorei是一条二元切分条目的评分,Scorei=fp(wi,wj),fp(wi,wj)为 译文中的二元切分条目(wiwj)在模型中对应的值。

则对所述译文“复古未来的声音”的二元切分条目进行打分,则每个二 元切分条目的评分Scorei=fp(wi,wj)如下:

复->古:0.0093

古->未:0.0003

未->来:0.3120

来->的:0.1094

的->声:0.0014

声->音:0.1592

在本实施中,所述译文“复古未来的声音”的得分取其二元切分条目的 最小值,为0.0003。

通过不同的翻译系统获取一段英语短语的译文,对译文的打分结果如图4 所示。

本实施例所提供的译文检查方法,给译文评分的方法采用取译文中最小 的评分作为整个译文的评分,通过分值的大小可以直接判断出译文是否错误。

S24:根据所述译文的评分判定所述译文是否错误。

所述评分判定的方法为:

其中,δ为所述预设判定阈值,0<δ≤1。一般取0<δ≤0.3。

在本实施例中,所述预设判定阈值δ=0.00055。

由于0.0003<0.00055,则所述译文“复古未来的声音”判定为错误的翻 译。

通过不同的翻译系统获取一段英语短语的译文,对译文的判定结果如图4 所示。

在其他实施例中,所述预设判定阈值δ可以取0.0005、0.0007、0.0008、 0.0009、0.001等不同的值,根据初始化处理建立的所述检查评分模型的特征 来选择不同的判定阈值。

本实施例所提供的译文检查方法,将打分结果与预设判定阈值进行比较, 直接自动将领域相关的海量译文中“不正确”或“错误”的短语译文过滤掉。

实施例2:

本实施例中除步骤S13与实施例1不同,其他步骤与实施例1相同,所 述步骤S13中计算以wi开始时wj出现的概率fp(wi,wj)的方法为:

从列表L中得到所有以wi开始的二元切分条目,将二元切分条目中的第 二个字符wj加入字符串S;

将所述字符串S中的每个字符存入集合T;

统计所述字符串S的长度n,对于集合T中的每一个字符wj,统计所述字 符wj在字符串S中出现的次数m;

则以wi开始时wj出现的概率fp(wi,wj)为

fp(wi,wj)=m/n

其中,m,n的初始值为零。

首先统计所述字符串S的长度n和所述集合T中的每一个字符wj,统计 所述字符wj在字符串S中出现的次数m,然后以n、m的比值作为以wi开始时wj出现的概率fp(wi,wj)的值,构思巧妙,算法简单,易于实现。

实施例3:

本实施例中除步骤S23与实施例1不同,其他步骤与实施例1相同,所 述步骤S23中对所述译文进行打分评估的方法为:

Score=avg{Scorei,i=1,2,…,n-1}

其中,Scorei是一条二元切分条目的评分,Scorei=fp(wi,wj),fp(wi,wj)为 译文中的二元切分条目(wiwj)在模型中对应的值。

本实施例所提供的译文检查方法,给译文评分的方法采用取译文中每个 二元条目的平均值,可以有效避免因一些二元条目没有纳入模型造成的误评 分。

实施例4:

本实施例中除步骤S12与实施例1不同,其他步骤与实施例1相同,所 述步骤S23中对所述译文进行打分评估的方法为:

Score=∏Scorei

其中,i=1,2,…,n-1,Scorei是一条二元切分条目的评分,Scorei=fp(wi,wj), fp(wi,wj)为译文中的二元切分条目(wiwj)在模型中对应的值。

本实施例所提供的译文检查方法,给译文评分的方法采用取译文中评分 的乘积作为整个译文的评分,在判断整个译文的正确与否的同时可以根据分 值的大小判断整个译文的翻译质量。

本系统所述的译文检查方法,包括初始化处理和检查判定处理。所述初 始化处理,基于一批语料,通过统计领域语料二元切分条目的概率信息,来 获得二元语法模型,作为检查评分模型,为所述检查判定处理时给译文打分 提供依据。所述检查判定处理,通过所述检查评分模型给领域译文打分,将 译文得分与预设判定阈值比较,将得分小于所述预设判定阈值的译文判定为 “错误”,否则判定为“正确”。上述译文检查方法有效避免了现有技术中对 译文检测方法很大程度上依赖于双语专家或高质量的人工翻译译文作为参照, 同时不能判断正确与否,只能判断评测译文的好差程度的问题。

实施例5:

本实施例提供一种译文检查系统,包括初始化处理装置和检查评定处理 装置。

第一、所述初始化处理装置,用于基于一批语料,所述语料为某领域的 语料,通过统计领域语料二元切分条目的概率信息,来获得二元语法模型, 作为检查评分模型,为所述检查判定处理时给译文打分提供依据。具体包括:

获取文本集子装置,用于获取一批某领域的文本集D,d∈D,其中d表示 所述文本集D的一个文本。

第一二元切分子装置,用于将所述文本集D中的每一个文本d分句后获 得的句子进行二元切分,并将每个二元切分条目(wiwi+1)存入列表L,其中, i=1,2,…,n-1,n为一个句子所包含的字符个数,wi表示句子中的一个字符,wi+1表示字符wi后的一个字符。

具体包括:

文本分句模块,用于对所述集合D中的每一个文本d分句,得到m 个句子s1,s2,…,sm,其中m为非负整数;

文本分句切分模块,用于对每一个句子si做二元切分,通过si得到k 个二元切分条目(w1w2)(w2w3)…(wkwk+1),每一个句子si包含的字符的个数为 k+1个;

保存模块,用于将每个二元切分条目存入列表L。

译文打分评估子装置,用于将所述列表L中的每个二元切分条目存入集 合Q,根据所述集合Q计算以wi开始时wj出现的概率fp(wi,wj),其中,wi、wj分别表示二元切分条目中的第一字符和第二字符。

所述计算以wi开始时wj出现的概率fp(wi,wj)的方法为:

fp(wi,wj)=ft(wi,wj)/ft(wi,*)

其中,ft(wi,wj)表示以wi开始且wj结尾的二元切分条目在列表L中的出现 次数,ft(wi,*)表示以wi开始的二元切分条目在列表L中的出现次数。

作为可替换的实施例,所述计算以wi开始时wj出现的概率fp(wi,wj)的方 法为:

从列表L中得到所有以wi开始的二元切分条目,将二元切分条目中的第 二个字符wj加入字符串S;

将所述字符串S中的每个字符存入集合T;

统计所述字符串S的长度n,对于集合T中的每一个字符wj,统计所述字 符wj在字符串S中出现的次数m;

则以wi开始时wj出现的概率fp(wi,wj)为

fp(wi,wj)=m/n

其中,m,n的初始值为零。

概率计算子装置,用于将计算得到的所有fp(wi,wj)保存为所述检查评分模 型。所述所有fp(wi,wj)保存在文本文件或二进制文件中。

第二、所述检查评定处理装置,用于通过所述检查评分模型给译文打分, 将译文得分与预设判定阈值比较,将得分小于所述预设判定阈值的译文判定 为“错误”,否则判定为“正确”。具体包括:

获取短语译文子装置,用于获取所述领域内短语的译文。

第二二元切分子装置,用于对所述译文做二元切分,获得所述译文的二 元切分条目。所述对所述译文做二元切分的方法与所述初始化处理阶段的方 法相同。所述二元切分采用CJK分词器进行二元切分。

译文打分评估子装置,用于根据所述检查评分模型对所述译文进行打分 评估。

对所述译文进行打分评估的方法为:

Score=Min{Scorei,i=1,2,…,n-1}

其中,Scorei是一条二元切分条目的评分,Scorei=fp(wi,wj),fp(wi,wj)为 译文中的二元切分条目(wiwj)在模型中对应的值。

作为可替换的实施例,对所述译文进行打分评估的方法为:

Score=avg{Scorei,i=1,2,…,n-1}

其中,Scorei是一条二元切分条目的评分,Scorei=fp(wi,wj),fp(wi,wj)为 译文中的二元切分条目(wiwj)在模型中对应的值。

作为可替换的实施例,对所述译文进行打分评估的方法为:

Score=∏Scorei

其中,i=1,2,…,n-1,Scorei是一条二元切分条目的评分,Scorei=fp(wi,wj), fp(wi,wj)为译文中的二元切分条目(wiwj)在模型中对应的值。

判定子装置,用于根据所述译文的评分判定所述译文是否错误。所述评 分判定的方法为:

其中,δ为所述预设判定阈值,0<δ≤1。在本实施中,所述预设判定阈值 δ=0.00055。在其他实施例中,所述预设判定阈值δ的取值范围为0<δ≤0.3。

本发明所述的译文检查系统,利用译文检查方法,有效避免了现有技术 中对译文检测方法很大程度上依赖于双语专家或高质量的人工翻译译文作为 参照,同时不能判断正确与否,只能判断评测译文的好差程度的问题。

显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式 的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做 出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。 而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或 计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、 或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个 其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘 存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产 品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图 和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程 和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、 嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通 过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流 程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的 装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设 备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器 中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或 多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上, 使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的 处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图 一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了 基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权 利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号