形态非对称汉蒙统计机器翻译模型构造方法研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

主流的统计机器翻译（Statistical Machine Translation：SMT）方法本质上是词汇化的，将词当成独立实体进行翻译，这种词汇化的方法缺点是无法充分利用形态丰富的语言的形态信息。在形态非对称的汉蒙统计机器翻译模型中，由于蒙古语具有丰富的形态变化，而产生严重的选择歧义问题，从而产生译文词形变化上的错误（比如，数、格、人称、性别的不一致以及动词时态、语态不符合上下文等），加深了译文在语法、语义、语用等多个层面的错误。与此同时，蒙古语形态变化的多样性，导致汉蒙平行双语语料规模较小的汉蒙机器翻译系统的数据稀疏问题更加严重。
　　本文从汉蒙SMT具有形态非对称的特点入手，从蒙古语的形态信息的分析和融合两个角度克服形态非对称汉蒙SMT模型构造问题。首先，结合机器翻译模型和最小上下文构成代价模型对蒙古语进行了形态学切分。然后，提出了因子化翻译模型、链式机器翻译模型以及PageRank重排序的方法以解决非对称汉蒙SMT模型构造问题。因子化翻译模型在训练过程中将词干、词缀视为因子进行翻译，通过多个翻译模型和生成模型，完成目标语言词形的生成。链式机器翻译系统将词干、词缀作为中间语言进行处理。即汉语先翻译成词素，然后根据蒙古语的构词特点，分别采用正则表达式和机器翻译的方法恢复蒙古语。PageRank重排序的方法融合了同一机器翻译系统不同语料的翻译结果，在后处理层面上融合词素信息进行重排序。实验证实，相对标准的短语机器翻译模型，融入形态学信息的统计机器翻译模型构造方法，显著地提高了机器翻译系统翻译质量。

著录项

作者
李文;
展开▼
作者单位

中国科学技术大学;

展开▼
授予单位中国科学技术大学;
学科模式识别与智能系统
授予学位硕士
导师姓名李淼;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类机器翻译;翻译机;
关键词
语言翻译; 机器翻译; 汉蒙互译; 翻译模型;

相似文献

中文文献
外文文献
专利

1. 汉蒙统计机器翻译中的形态学方法研究 [J] . 杨攀 ,张建 ,李淼 . 中文信息学报 . 2009,第001期
2. 有限语料汉蒙统计机器翻译调序方法研究 [J] . 陈雷 ,李淼 ,张健 . 中文信息学报 . 2013,第005期
3. 汉蒙统计机器翻译中的调序方法研究 [J] . 王斯日古楞 ,斯琴图 ,那顺乌日图 . 中文信息学报 . 2011,第004期
4. 一种基于短语的汉蒙统计机器翻译与调序模型 [J] . 侯宏旭 ,刘群 ,李锦涛 . 高技术通讯 . 2009,第005期
5. 基于CNN词根形态选择模型的改进蒙汉机器翻译研究 [J] . 乌尼尔 ,苏依拉 ,刘婉婉 . 中文信息学报 . 2018,第005期
6. 基于形态信息的汉蒙翻译模型和语言模型构造方法研究 [C] . 乌达巴拉 ,胡泽林 ,雪艳 . 第二届全国少数民族青年自然语言处理学术研讨会 . 2008
7. 汉蒙统计机器翻译中的形态学方法研究 [A] . 杨攀 . 2009

形态非对称汉蒙统计机器翻译模型构造方法研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅