首页> 中文期刊> 《通信技术》 >基于归一化点向互信息的低资源平行语料过滤方法

基于归一化点向互信息的低资源平行语料过滤方法

         

摘要

神经机器翻译的效果严重依赖于平行语料的规模和质量,而当前的平行语料抽取方法和生成方法只能提供规模足够但质量不佳的平行语料。因此,要在这些大规模低质平行语料上训练高质量的神经机器翻译系统,需要对这些平行语料进行有效过滤。针对这一问题,引入了归一化点向互信息算法来抽取噪声语料中的对齐信息,利用其中可靠性高的对齐信息来过滤噪声语料。利用该方法在OpenSubtitles的泰语—汉语翻译方向上提高了5.8个双语评估替补(Bilingual Evaluation Understudy,BLEU)值,汉语—泰语翻译方向上提高了10个BLEU值。此外,该方法在2020年国际机器翻译大赛给出的柬埔寨语—英语单向翻译任务中实验,得到的结果比基线高了0.4个BLEU值。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号