首页> 中文期刊>计算机工程与科学 >基于同义词数据增强的汉越神经机器翻译方法

基于同义词数据增强的汉越神经机器翻译方法

     

摘要

汉越平行语料库的资源稀缺,很大程度上影响了汉越机器翻译效果.数据增强是提升汉越机器翻译的有效途径,基于双语词典的词汇替换数据增强是当前较为流行的方法.由于汉语-越南语属于低资源语言对,双语词典难以获得,而通过单语词向量获取低频词的同义词较为容易.因此,提出一种基于低频词的同义词替换的数据增强方法.该方法利用小规模的平行语料,首先通过对单语词向量的学习,获得一端语言低频词的同义词列表;然后对低频词进行同义词替换,再利用语言模型对替换后的句子进行筛选;最后将筛选后的句子与另一端语言中的句子进行匹配,获得扩展的平行语料.汉越翻译对比实验结果表明,提出的方法取得了很好的效果,扩展后的方法比基准和回译方法在BL EU值上分别提高了1.8和1.1.

著录项

  • 来源
    《计算机工程与科学》|2021年第8期|1497-1502|共6页
  • 作者单位

    昆明理工大学信息工程与自动化学院 云南昆明650500;

    昆明理工大学云南省人工智能重点实验室 云南昆明 650500;

    昆明理工大学信息工程与自动化学院 云南昆明650500;

    昆明理工大学云南省人工智能重点实验室 云南昆明 650500;

    昆明理工大学信息工程与自动化学院 云南昆明650500;

    昆明理工大学云南省人工智能重点实验室 云南昆明 650500;

    昆明理工大学信息工程与自动化学院 云南昆明650500;

    昆明理工大学云南省人工智能重点实验室 云南昆明 650500;

    昆明理工大学信息工程与自动化学院 云南昆明650500;

    昆明理工大学云南省人工智能重点实验室 云南昆明 650500;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 信息处理(信息加工);
  • 关键词

    汉越; 数据增强; 同义词替换; 神经机器翻译;

  • 入库时间 2022-08-20 08:47:17

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号