首页> 中国专利> 多策略译员稿件自动匹配的方法

多策略译员稿件自动匹配的方法

摘要

本发明提供了一种多策略译员稿件自动匹配的方法,包括:读取待译稿件的各个属性,筛选出满足全部属性要求的译员;读取所述筛选出的译员ID,对每个译员的译后稿件与标准译稿进行相似性分析,确定每个译员的翻译能力的量化值;确定为每个译员设定的合适度值;将每个译员的量化值、合适度值的和进行排序,选择出分值最高的译员。本发明能客观的选择译员,效率较高,且经过各种属性判断,找出最适合的多个译员供用户选择。

著录项

  • 公开/公告号CN103092827A

    专利类型发明专利

  • 公开/公告日2013-05-08

    原文格式PDF

  • 申请/专利权人 武汉传神信息技术有限公司;

    申请/专利号CN201210594871.1

  • 发明设计人 江潮;

    申请日2012-12-31

  • 分类号G06F17/27(20060101);

  • 代理机构

  • 代理人

  • 地址 430073 湖北省武汉市东湖开发区光谷软件园一期以西、南湖南路以南、光谷软件园六期2幢5层205号

  • 入库时间 2024-02-19 19:02:27

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-07-16

    专利权的转移 IPC(主分类):G06F17/27 登记生效日:20190626 变更前: 变更后: 申请日:20121231

    专利申请权、专利权的转移

  • 2017-02-22

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G06F17/27 变更前: 变更后: 申请日:20121231

    专利权人的姓名或者名称、地址的变更

  • 2017-02-22

    专利权的转移 IPC(主分类):G06F17/27 登记生效日:20170203 变更前: 变更后: 申请日:20121231

    专利申请权、专利权的转移

  • 2016-08-17

    授权

    授权

  • 2016-07-27

    著录事项变更 IPC(主分类):G06F17/27 变更前: 变更后: 申请日:20121231

    著录事项变更

  • 2013-06-12

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20121231

    实质审查的生效

  • 2013-05-08

    公开

    公开

查看全部

说明书

技术领域

本发明涉及计算机领域,具体而言,涉及一种多策略译员稿件自动匹配的方法。

背景技术

信息时代和网络化使翻译工作方式发生了很大的变化。利用翻译流程管理平台,根据不同对象储存人才资料。有翻译任务时,可以根据翻译项目的语种、文章类型、专业领域以及客户对翻译质量和时限的要求,调用最合适的翻译和审校人员,组成项目组进行翻译,从而提高翻译效率、节省翻译费用、确保译文质量、优化项目管理。

目前的辅助翻译及管理平台对译员和译稿的匹配,一般还是通过人工或半人工的方式来完成,往往需通过更高级别的译员(比如审校)来判别译员的翻译能力和对译稿的合适度。这样不但主观性强,且采用人工选择译员,效率低下。

发明内容

本发明旨在提供一种多策略译员稿件自动匹配的方法,以解决的问题。

在本发明的实施例中,提供了一种多策略译员稿件自动匹配的方法,包括:

读取待译稿件的各个属性,筛选出满足全部属性要求的译员;

读取所述筛选出的译员ID,对每个译员的译后稿件与标准译稿进行相似性分析,确定每个译员的翻译能力的量化值;

确定为每个译员设定的合适度值;

将每个译员的量化值、合适度值的和进行排序,选择出分值最高的译员。

本发明的实施例,能客观的选择译员,效率较高,且经过各种属性判断,找出最适合的多个译员供用户选择。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1示出了实施例的流程图;

图2示出了实施例中进行相似度分析的模块架构;

图3示出了实施例中关键词的树形结构图。

具体实施方式

下面将参考附图并结合实施例,来详细说明本发明。参见图1所示的实施例的流程图,包括:

S11:读取待译稿件的各个属性,筛选出满足全部属性要求的译员;

S12:读取所述筛选出的译员ID,对每个译员的译后稿件与标准译稿进行相似性分析,确定每个译员的翻译能力的量化值;

S13:确定每个译员设定的合适度值;

S14:将每个译员的量化值、合适度值的和进行排序,选择出分值最高的译员。

本发明的实施例,能客观的选择译员,效率较高,且经过各种属性判断,找出最适合的多个译员供用户选择。

优选地,实施例中,每个译员对应该译员基因属性,包含了语种、行业、学科、领域等的翻译能力,以及信用度、完成任务及时度、质量波动情况、对某种稿件类型的熟悉度、对某类(个)客户的熟悉度等其他因素;而待译稿件的稿件碎片的基因属性则包括语种、行业、学科、难度、翻译要求等。通过将这些基因属性量化并带入到一个合适的匹配模型中进行匹配,从而得出某个稿件碎片适合哪些译员翻译并且给出适合度的排序。

可按照三层匹配模型找到译员,第一层为过滤项,该层首先确定一些基本的开关项,不符合这些项的译员被滤掉,符合的译员进入下一层匹配;

第二层为翻译能力项,该层通过译稿的基因属性来计算译员相应语种、行业、学科、领域的翻译能力,其值为一个0~100的数值;

第三层合适度计算项,系统根据译员的基因属性及属性的权重计算出译员翻译该译稿的合适度。

第一层的匹配过程包括:读取待译稿件的各个属性,筛选出满足全部属性要求的译员;

确定该译员的状态为接案状态后,读取该译员的与所述待译稿件相同的属性;属性至少包括之一:包括翻译价格、是否接任务、退稿率、是否翻译需求方、专项稿件能力。

至少执行以下之一的属性筛选:

如果所述译员的翻译价格属性的值在所述待译稿件的翻译价格属性的上下限阀值之间,则认为符合属性要求;

如果所述译员的退稿率属性的值小于所述待译稿件的退稿率属性的值,则认为符合属性要求;

如果所述译员的翻译需求属性的内容包含所述待译稿件的翻译需求属性的内容,则认为符合属性要求;

如果所述译员的专项稿件能力属性符合所述待译稿件的专项稿件属性的内容,则认为符合属性要求。

例如:判别该译员翻译价格是否超过给定译稿的翻译价格阀值,不超过为1,否则为0该译员被过滤掉。

是否接任务:判断若该译员是否处于暂不接任务状态,接任务为1,不接任务为0该译员被过滤掉。

退稿率:若译员退稿率不大于50%,按其值的大小归入到合适度项目计算,否则其值为0直接过滤掉。

是否翻译需求方:若翻译甲方有指定的翻译要求,按其要求判断译员是否符合要求,符合为1,否则为0该译员被过滤掉。

专项稿件能力:若待译稿件为某类专门稿件,如简历、公证书、法律文书或其他有专门格式和体裁文书,则要求译员具备相关的文书翻译能力,具备为1,否则为0该译员被过滤掉。

在第一层匹配之后,通过第二层的译稿的基因属性来计算译员相应语种、行业、学科、领域的翻译能力,其值为一个0~100的数值。按照图2所示的模块结构量化,该方法的流程过程如下:

提取测试稿件

一篇中到英的有关汽车发动机制造的测试稿件,其语种信息、行业信息和学科领域信息为:

语种信息:中→英

行业信息:37交通运输设备制造业

372汽车制造

3721汽车整车制造

学科领域信息:470动力与电气工程

470.30动力机械工程

470.3020内燃机工程(包括汽油机、柴油机、气体燃料发动机等)

对译员能力进行判断,如果已经经过判定,则进入译员能力选择/比较模块,如果没有经过判定,则进行翻译能力测试系统登陆模块。

译员登录平台申请领取测试稿件。系统读取测试稿件的语种、行业、学科、领域等属性信息,若译员具备该属性能力,则进入译员能力比较/选择模块;否则分配测试许可号给该译员进行该专业属性能力的翻译测试;

申领译员凭测试许可号登录翻译能力测试系统,进行该语种、行业、学科、领域的翻译能力测试;

系统根据测试许可号,从标准测试文档库中提取7篇相关测试文档给待测译员,包括语种类文档1篇,行业类文档3篇(37、372、3721),学科领域类文档3篇(470、470.30、470.3020),其难度系数分别为:9、6、8、8、7、8、7,排列顺序为语种、行业-交通运输设备制造业(37)、行业-交通运输设备制造业-汽车制造(372)、行业-交通运输设备制造业-汽车制造-汽车整车制造(3721)、学科领域信息-动力与电气工程(470)、学科领域信息-动力与电气工程-动力机械工程(470.30)、学科领域信息-动力与电气工程-动力机械工程-内燃机工程(470.3020),后面的数字顺序与此相同;

译员翻译完成后,根据翻译时间得到7篇译文的翻译速度档位值分别为:6、8、7、6、6、7、7,然后调用相似性比较模块计算译员的译文和标准译文的相似度,得到7篇译文和标准译文的相似度值,分别为:0.6、0.65、0.79、0.83、0.77、0.82、0.85;

优选地,稿件相似性比较模块进行分析的过程包括:

S21:提取每篇译后稿件和与其对应的标准译稿所归属的属于一个专业的多篇标准译稿的全部关键词,得到关键词集合C={k1,k2,…,km};

S22:计算C中每个关键词k在稿件集合中出现的概率,即出现关键词k的稿件数和稿件总数之比,记为p(k)。

将关键词按p(k)进行降序排序,并将每一个关键词作为一个集合,这样得到初始的m个待合并集合,记为{k1),{k2),...,{km);

在这m个关键词中,计算在关键词ki出现的稿件中,关键词kj也出现的概率,记为p(kj|ki),共计个条件概率,(1<i,j≤m;i≠j);

p(kj|ki)的计算方法:p(kj|ki)=p(kjki)/p(ki),p(kjki)为kj、ki同时出现在同一篇稿件中的概率。

S23:合并集合,当集合I和J同时满足以下两个条件时合并:

满足p(ki)>P1,p(kj|ki)>P2;

满足|{ki∈I∪J|p(kj|ki)>P2}I>(|I|+|J|)/2。(|X|表示集合x中元素的个数)

当任两个集合都不符合这两个条件的时合并结束,同时得到第一层聚类关键词集合C一{C1,C2,…,Cq)。

对C一{C1,C2,…,Cq},取阈值P3<P2,用上述方法再次进行聚类,生成上一层概念集合。重复此过程,直到聚类集合无法再聚类为止,这些无法再聚类的概念集合为根节点C的子节点,这样就生成如图3所示的关键词的概念树。

S24:根据概率形成的树形结构,计算两篇文档的相似度。

相彳以度>Sim(A,B)=A*BA*BA*B.>

A={a1,a2,…,an},B={b1,b2,…,bn},A、B分别为每个稿件内对应的关键词的集合,a1为A稿件的第一个关键词,b1为B稿件的第一个关键词。

根据概念树中,每个关键词的概率在概念树的节点位置,确定译后稿件和标准译稿的任意两个关键词的乘积的总和C;其中>C=A*B=Σi=1nΣj=1n(ai×bj);>

ai×bj为两个关键词的乘积,该关键词的乘积为:根据任意两个叶子节点与其距离最近的父节点的路径长度,与树的深度路径长度的比值,作为这两个叶子节点的乘积;ai×bj=depth(com(ai,bj))/H,其中,H为树的路径深度。

得到相似度的值之后,提取每篇测试稿件内的关键词,与术语语料库进行匹配,确定每篇稿件的术语数量,作为计算稿件权重的基值;

通过所述基值、所述测试稿件的翻译难度系数、和译员的翻译速度系数确定出每件测试稿件所占的权重;

将上述所得的权重值结合译后稿件与标准译稿的相似度值得到一个0~100之间的数值,将该数值作为该译员在该专业的翻译能力分值。

例如:

7篇译文的权重计算:根据术语语料库计算6篇行业类和学科领域类文档的相关专业术语的数量,得到6篇文档的专业术语的数量分别为7、23、28、20、33、31,将这6个数值作为计算权重的基值,因为语种类文档基本没有专业术语,可以取这6个数的算术平均值23.7作为语种类的权重基值,这样得到计算7篇译文权重的基值集合{23.7,7,23,28,20,33,31};

将该权重集合的值对应乘以这7篇文档的难度系数{9,6,8,8,7,8,7}和翻译速度档位值{6,8,7,6,6,7,7},得到集合{1279.7,336,1288,1344,840,1848,1519},对该集合做归一化处理即得到这7篇文章的权重值集合{0.15136,0.03974,0.15234,0.15896,0.09935,0.21858,0.17966}。

译员专业翻译能力分值计算:以相似度值集合{0.6,0.65,0.79,0.83,0.77,0.82,0.85}与权重集合{0.15136,0.03974,0.15234,0.15896,0.09935,0.21858,0.17966}对应相乘,得到集合{0.09082,0.02583,0.12035,0.13194,0.0765,0.17924,0.15271},将该集合的值相加再乘以100就得到译员在该语种、行业、学科、领域属性的翻译能力分值77.739分。

通过第三层合适度计算项,系统根据译员的基因属性及属性的权重计算出译员翻译该译稿的合适度的值。

合适度计算项包括:退稿率、及时交稿率、稿件可用率、翻译性价比、合作次数、低级错误、是否签约。

其中每个项都一个介于0~100之间的数值,具体计算方法见一下的详述,其中各项所占权重如下表:

表1

合适度计算项权重退稿率0.15

及时交稿率0.15稿件可用率0.30翻译性价比0.10合作次数0.15低级失误0.15是否签约

退稿率:当退稿率不大于50%时,进入合适度计算项,(1-退稿率)×100作为其计算分值。

及时交稿率:及时交稿率×100作为其计算分值。

稿件可用率:稿件可用率×100作为其计算分值。

翻译性价比:该译稿的标准翻译价格/译员的翻译价格,根据其值的大小转换成0~100之间的数值作为其计算分值,转换表如下:

表2

性价比不大于0.50.5~2不小于2档位分值00.5~2之间每隔0.015,档位值加1100

合作次数:按译员和公司的成功合作次数计算档位分值表如下:

表3

合作次数0次1~3次4~10次11~20大于20

档位分值30608090100

低级错误:低级错误在一定程度上反映了译员翻译的责任心和翻译态度,根据译员的低级错误次数设定相应的档位分值表如下:

表4

低级错误次数0次1~5次5~10次11~2020~40大于40次档位分值100806040200

是否签约:签约译员合适度分值加10分。

将每个合适度计算项与其对应的权重相乘,将所述多个合适度计算项的乘积的和作为所述和适度值。

最后,将每个译员的量化值、合适度值的和进行排序,选择出分值最高的译员。

下面通过具体的一篇待译文稿详细说明。

该待译文稿的属性信息如下:翻译价格为标准翻译价格、翻译需求无特殊要求、非专项稿件。其语种属性为中到英,所属行业为汽车行业,学科领域信息为机械——发动机。各个译员的属性信息与译稿的属性信息匹配程度如表5所示:

表5

经过滤项过滤和计算译员的翻译能力分值后得到下表6所示:

表6

计算后:TR001、TR002、TR003、TR006的合适度得分分别为以下表7所示:84.3,87.3,85.8,76.8。

表7

译员ID合适度得分翻译能力得分总得分TR00184.3+1080174.3TR00287.3+1075172.3TR00385.8+1085180.8TR00676.870146.8

根据总得分选择TR003作为译稿的翻译译员,TR001为译稿的备选翻译译员。

通过上述步骤,找到最适合翻译稿件或稿件片段的译员,本发明由于译员基因属性包含了语种、行业、学科、领域等的翻译能力,以及信用度、完成任务及时度、质量波动情况、对某种稿件类型的熟悉度、对某类(个)客户的熟悉度等其他因素,而稿件碎片的基因属性则包括语种、行业、学科、难度、翻译要求等,将这些基因属性量化并带入到基因匹配模型中进行匹配,从而得出某个稿件碎片哪些译员适合翻译并有适合度的排序。基因匹配模型是翻译能力匹配、合适度匹配和相似度匹配等多个模型的综合,这个模型的建立对于翻译行业解决翻译效率、质量等问题具有非常现实的作用,为翻译行业的大规模产业化生产的建立也具有重要意义。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号