技术领域
本发明属于英语翻译技术领域,特别涉及一种英语翻译优化方法。
背景技术
英语作为一种世界范围的语言,越来越多的人需要学习和使用英语。翻译是语言使用过程中的关键环节,翻译就是把一种语言文字的语义用另一种语言文字表达出来,这就要求翻译的过程不仅要把握翻译的准确性,还要把握两种文字的使用习惯。现在有很多英语翻译软件帮助人们进行翻译,但是使用翻译软件往往存在数翻译不准确,语句不通顺的问题。
发明内容
本发明的目的是提供一种英语翻译优化方法,其能够提高翻译结果的准确性,提高翻译质量。
本发明提供的技术方案为:
一种英语翻译优化方法,包括如下步骤:
步骤一、从数据库中抽取n个英语语句作为测试样本,得到测试样本集{E
步骤二、将所述测试样本集中的测试样本分别输入m个的翻译系统进行翻译,得到翻译结果样本集
式中,C
步骤三、将所述每个测试样本的翻译结果与该样本的标准译文进行对比,得到最佳翻译结果;并将输出所述最佳翻译结果的翻译系统,作为该测试样本的最佳翻译系统;
步骤四、将待翻译语句与测试样本进行对比,确定与所述待翻译语句相似度最高的测试样本;将所述待翻译语句输入与其相似度最高的测试样本的最佳翻译系统,得到所述待翻译语句的译文。
优选的是,所述翻译系统包括:直接翻译法翻译系统、中间语言法翻译系统和转换法翻译系统。
优选的是,在所述步骤一之前还包括,从不同领域的英语文献中筛选出原始样本语句形成数据库;
其中,所述原始样本语句中至少含有一个英语基本句型。
优选的是,在所述步骤一中,得到测试样本的方法为:
步骤1、对数据库中的原始样本语句按数量等分为n个子区间;
步骤2、在每个子区间内随机抽取一个英语语句,作为测试样本。
优选的是,在所述步骤三中,通过如下方法得到最佳翻译结果:
步骤1、计算每个翻译结果与标准译文的相似距离;
其中,d
步骤2、筛选出数值最小的相似距离,将与数值最小的相似距离相对应的翻译结果作为最佳翻译结果。
优选的是,在所述步骤四中,通过如下方法确定与所述待翻译语句相似度最高的测试样本;
步骤A、筛选出多个与待翻译语句含有相同的基本句型的测试样本,作为预选样本;
步骤B、采用二进制编码方式,对待翻译语句与所述预选样本的形容词占比的差值Δc、名词占比差值Δd、动词占比差值Δe和介词占比差值Δf进行编码;
步骤C、随机产生第一代种群,所述第一代种群中的每个个体都包含Δc、Δd、Δe和Δf;
步骤D、计算第一代种群中的每个个体的适应度;其中,所述适应度计算公式为:
步骤E、将所述个体按适应度排序,选择适应度高的个体,进行交叉和变异,生成第二代种群;
步骤F、计算第二代种群中每个个体的适应度,循环进行步骤E-F,直到达到设定的迭代次数;选出适应度最大的个体作为最优解;
步骤G、对所述最优解进行解码,分别得到Δc、Δd、Δe和Δf的最优值Δc
计算最优差异度H
并且计算每个所述预选样本与所述待翻译语句的差异度:
H
其中,Δc
其中,与H
优选的是,在所述步骤A中,所述基本句型包括如下形式:
主语+谓语;
主语+系动词+标语;
主语+谓语+宾语;
主语+谓语+间接宾语+直接宾语;
主语+谓语+宾语+宾语补足语;以及
There be句式。
本发明的有益效果是:
本发明提供的英语翻译优化方法,能够提高翻译结果的准确性,提高翻译质量。
具体实施方式
下面对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
本发明提供了一种英语翻译优化方法,具体的过程如下:
一、建立数据库
从不同领域的英语文献中筛选出多个原始样本语句形成数据库;其中,所述原始样本语句中至少含有一个英语基本句型。
所述基本句型包括但不限于如下形式的句型:
第一类:主语+谓语(S+V);第二类:主语+系动词+标语(S+V+P);第三类:主语+谓语+宾语(S+V+O);第四类:主语+谓语+间接宾语+直接宾语(S+V+IV+O);第五类:主语+谓语+宾语+宾语补足语(S+V+O+C);以及第六类:There be句式。
二、得到测试样本集
对数据库中的原始样本语句进行随机编号后,按编号顺序从小到达排列;从第一个编号开始按照数量将数据库中的所有样本等分为n个子区间。在每个子区间内随机抽取一个英语语句,作为测试样本;这样就得到了n个测试样本,n个测试样本组成测试样本集{E
三、得到每个测试样本在不同翻译系统中的翻译结果(中文译文)
将所述测试样本集中的测试样本分别输入m个的翻译系统进行翻译,得到翻译结果样本集
式中,C
其中,所述的翻译系统的数量m至少为3个。在本实施例中,所述翻译系统包括:直接翻译法翻译系统、中间语言法翻译系统和转换法翻译系统。其中,直接翻译法翻译系统采用直接翻译法作为翻译方法,中间语言法翻译系统采用中间语言法作为翻译方法,所述转换法翻译系统采用转换法作为翻译方法。上述三种方法均为本领域公知的翻译方法,在此不再赘述。在实际应用中,可以增加或替换成其他的效果比较好的常用翻译系统。
四、选取出每个测试样本的最佳翻译系统
(1)将所述每个测试样本的翻译结果与该样本的标准译文进行对比,得到最佳翻译结果。具体过程如下:
首先每个测试样本的翻译结果与该样本的标准译文分别划分成多个词语。并且通过如下公式计算每个词语占准译文总词数的比值:
式中,q
通过如下公式计算标准译文中词语i占标准译文总词数的比值:
式中,q
之后,计算每个翻译结果与标准译文的相似距离;
其中,d
(2)筛选出数值最小的相似距离,将与数值最小的相似距离相对应的翻译结果作为最佳翻译结果。并将输出所述最佳翻译结果的翻译系统,作为该测试样本的最佳翻译系统。从而得到了每个测试样本的最佳翻译系统。
五、确定与所述待翻译语句相似度最高的测试样本,并将所述待翻译语句输入与其相似度最高的测试样本的最佳翻译系统,得到所述待翻译语句的译文。
(1)结合遗传算法确定与所述待翻译语句相似度最高的测试样本;
A、筛选出多个与待翻译语句含有至少一个相同的基本句型的测试样本,作为预选样本。
B、将每一组解的待翻译语句与所述预选样本的形容词占比的差值Δc、名词占比差值Δd、动词占比差值Δe和介词占比差值Δf归一化后按二进制编码,得到可行域内各组解的编码,即为染色体。
C、随机创建初始(第一代)种群;所述第一代种群中的每个个体都包含Δc、Δd、Δe和Δf。
D、计算第一代种群中的每个个体的适应度;其中,所述适应度计算公式为:
E、将所述个体按适应度排序,选择适应度高的个体,进行交叉和变异,生成第二代种群。
步骤F、计算第二代种群中每个个体的适应度,循环进行步骤E-F,直到达到设定的迭代次数;选出适应度最大的个体作为最优解。
其中,根据经验,设定种群(包括第一代种群和第二代种群)大小为50~100,设定最大代数即优化迭代次为1000~1500,设定交叉率为1以保证种群的充分进化得近似最优解,设定变异率为0.1因本发明中优化参数发生变异的可能性较小。
步骤G、对所述最优解进行解码,分别得到Δc、Δd、Δe和Δf的最优值Δc
(2)计算最优差异度H
并且计算每个所述预选样本与所述待翻译语句的差异度:
H
其中,Δc
计算每个预选样本与所述待翻译语句的差异度与最优差异度的差值ε,筛选出ε绝对值最小值对应的预选样本(即为H
(3)将所述待翻译语句输入与其相似度最高的测试样本(预选样本)的最佳翻译系统,得到所述待翻译语句的译文。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节。
机译: 一种提高机器人调试商品可靠性的优化方法
机译: 一种基于交互式剂量梯度的优化方法,以控制IMRT的传递复杂性
机译: 一种移动设备及其纹理存储优化方法