首页> 中文学位 >形态非对称汉蒙统计机器翻译模型构造方法研究
【6h】

形态非对称汉蒙统计机器翻译模型构造方法研究

代理获取

目录

文摘

英文文摘

声明

第一章 绪论

第二章 机器翻译概况

第三章 蒙古文形态分析

第四章 因子化翻译模型

第五章 链式机器翻译系统

第六章 PageRank重排序

第七章 总结与展望

参考文献

致 谢

在读期间发表的学术论文与取得的研究成果

展开▼

摘要

主流的统计机器翻译(Statistical Machine Translation:SMT)方法本质上是词汇化的,将词当成独立实体进行翻译,这种词汇化的方法缺点是无法充分利用形态丰富的语言的形态信息。在形态非对称的汉蒙统计机器翻译模型中,由于蒙古语具有丰富的形态变化,而产生严重的选择歧义问题,从而产生译文词形变化上的错误(比如,数、格、人称、性别的不一致以及动词时态、语态不符合上下文等),加深了译文在语法、语义、语用等多个层面的错误。与此同时,蒙古语形态变化的多样性,导致汉蒙平行双语语料规模较小的汉蒙机器翻译系统的数据稀疏问题更加严重。
   本文从汉蒙SMT具有形态非对称的特点入手,从蒙古语的形态信息的分析和融合两个角度克服形态非对称汉蒙SMT模型构造问题。首先,结合机器翻译模型和最小上下文构成代价模型对蒙古语进行了形态学切分。然后,提出了因子化翻译模型、链式机器翻译模型以及PageRank重排序的方法以解决非对称汉蒙SMT模型构造问题。因子化翻译模型在训练过程中将词干、词缀视为因子进行翻译,通过多个翻译模型和生成模型,完成目标语言词形的生成。链式机器翻译系统将词干、词缀作为中间语言进行处理。即汉语先翻译成词素,然后根据蒙古语的构词特点,分别采用正则表达式和机器翻译的方法恢复蒙古语。PageRank重排序的方法融合了同一机器翻译系统不同语料的翻译结果,在后处理层面上融合词素信息进行重排序。实验证实,相对标准的短语机器翻译模型,融入形态学信息的统计机器翻译模型构造方法,显著地提高了机器翻译系统翻译质量。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号