首页> 中文期刊>中文信息学报 >一种基于词素媒介的汉蒙统计机器翻译方法

一种基于词素媒介的汉蒙统计机器翻译方法

     

摘要

To deal with the morphological difference between Chinese and Mongolian ,this paper proposes a method of adopting morpheme of Mongolian as the pivot to Chinese-Mongolian statistical machine translation (SM T ) .First , we segment Mongolian word into morphemes ,achieving a balance in the morphology of the language pair .Then ,we treat Mongolian morpheme as pivot language and construct two new SM T systems :Chinese-Morpheme SM T and Morpheme-Mongolian SM T .New translation knowledge including phrase translation table and reordering model is introduced for these two SM T systems .Finally ,we use multiple decoding paths and multiple features to incorporate the new translation knowledge .Experimental results demonstrate our method can improve the translation quality significantly .%汉蒙语形态差异性及平行语料库规模小制约了汉蒙统计机器翻译性能的提升.该文将蒙古语形态信息引入汉蒙统计机器翻译中,通过将蒙古语切分成词素的形式,构造汉语词和蒙古语词素,以及蒙古语词素和蒙古语的映射关系,弥补汉蒙形态结构上的非对称性,并将词素作为中间语言,通过训练汉语 — 蒙古语词素以及蒙古语词素-蒙古语统计机器翻译系统,构建出新的短语翻译表和调序模型,并采用多路径解码及多特征的方式融入汉蒙统计机器翻译.实验结果表明,将基于词素媒介构建出的短语翻译表和调序模型引入现有统计机器翻译方法,使得译文在BLEU值上比基线系统有了明显提高,一定程度上消解了数据稀疏和形态差异对汉蒙统计机器翻译的影响.该方法是一种通用的方法,通过词素和短语两个层面信息的结合,实现了两种语言在形态结构上的对称,不仅适用于汉蒙统计机器翻译,还适用于形态非对称且低资源的语言对.

著录项

  • 来源
    《中文信息学报》|2017年第4期|57-62,69|共7页
  • 作者单位

    中国科学技术大学 自动化系,安徽 合肥 230027;

    中国科学院 合肥智能机械研究所,安徽 合肥 230031;

    中国科学院 合肥智能机械研究所,安徽 合肥 230031;

    中国科学院 合肥智能机械研究所,安徽 合肥 230031;

    中国科学技术大学 自动化系,安徽 合肥 230027;

    中国科学院 合肥智能机械研究所,安徽 合肥 230031;

    中国科学技术大学 自动化系,安徽 合肥 230027;

    中国科学技术大学 自动化系,安徽 合肥 230027;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 理论、方法;
  • 关键词

    中间语言; 词素; 统计机器翻译; 短语翻译表; 调序模型;

  • 入库时间 2022-08-18 06:08:17

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号