改进汉英统计机器翻译模型的教学方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

统计机器翻译方法经历了从传统的规则到噪声信道模型，再到对数线性模型的转变。在诸多统计机器翻译技术中，基于短语的最小错误率训练是一种被广泛采用的统计翻译方法。本文依据数学原理，提出三种改进统计机器翻译系统的方法：(1)基于非平行语料的半监督传导学习(2)基于赫夫曼编码的解码算法(3)带约束条件的最小错误率训练。在基于短语的统计机器翻译系统Moses基础上应用上述三种方法进行汉英翻译实验，其中，带约束条件的最小错误率训练使得机器翻译系统性能得到显著提高。
　　本文在半监督传导学习方法的框架下，利用网上可以自由获取的非平行可比双语语料，通过迭代方法增加训练语料的规模，使得机器翻译系统可以用于平行语料较少的语言对。这种方法为统计机器翻译系统获取训练语料开辟了一个崭新的思路。
　　另外，还应用传统的赫夫曼编码树技术，改进已有的栈解码算法。这种方法通过使用合并策略而不是扩展策略生成新的假设，可以提高解码算法的效率，节约存储空间。实验结果表明，赫夫曼解码可以在保证译文质量的前提下，降低解码算法的时间复杂度，将解码速度提升16倍，使得统计机器翻译系统可以更加适应于对大规模数据的快速翻译。
　　根据贝叶斯公式，组成模型的各个函数之间存在独立性假设。然而，由于被用于描述语言现象的不同侧面，模型的部分函数之间有着必然的联系。在最小错误率模型的基础上，提出带约束条件的函数决策公式。函数之间的条件概率关系被做为约束条件加入翻译模型，从而在训练参数时，增强函数之间的关联性。
　　实验结果表明，函数决策公式的约束条件对统计机器翻译系统通过训练生成的参数产生影响。通过函数之间的约束条件调节，可以获得多个满足译文最小错误率的局部最优点。数百次的实验表明，开发测试集获得的约束条件参数能够显著提高系统在最终测试集上的评测结果。因此，适当的约束条件有助于基于最小错误率训练的翻译系统性能的提高。
　　以往的噪声信道模型、最大熵模型和最小错误率模型所依据的最优化函数都是无约束的。这种加入约束条件的方法在不增加系统的内存空间和执行时间的情况下，能够和各种改进最小错误率训练的方法一起使用，兼容性强，因此可以被广泛应用于统计机器翻译系统中。约束条件的加入使得机器翻译系统的模型参数更加适应测试语料，在没有使用其他外部资源(句法知识、人工规则等)的情况下，系统性能得到提高。只要找到更适合的约束条件，就有可能进一步提高统计机器翻译的性能，说明这种方法有广阔的发展空间。
　　综上所述，数学方法的改进对统计机器翻译系统至关重要。面对大规模的语言知识和统计数据，更好的数学模型能够帮助统计机器翻译系统更有效地整合各种信息，输出高质量的译文并降低系统执行所占用的时间和空间。

著录项

作者
陈丽江;
展开▼
作者单位

南京师范大学;

展开▼
授予单位南京师范大学;
学科中国语言文学;语言学及应用语言学
授予学位博士
导师姓名陈小荷;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类两种语言的翻译;
关键词
汉英语言; 统计机器翻译; 约束条件; 最小错误率训练; 非平行语料; 赫夫曼解码;
入库时间 2022-08-17 10:53:32

相似文献

中文文献
外文文献
专利

1. 汉英统计机器翻译中A*搜索算法研究与实现 [J] . 魏瑾 ,王挺 ,周会平 . 计算机应用研究 . 2007,第001期
2. 统计机器翻译中双语语料的过滤及词对齐的改进 [J] . 梁华参 ,赵铁军 . 智能计算机与应用 . 2013,第004期
3. 统计机器翻译中双语语料的过滤及词对齐的改进 [J] . 梁华参 ,赵铁军 . 智能计算机与应用 . 2013,第004期
4. 基于短语的统计机器翻译中汉维短语对抽取算法改进 [J] . 任高举 ,吐尔根·伊布拉音 ,艾山·吾买尔 . 现代计算机（专业版） . 2010,第005期
5. 基于短语的统计机器翻译中短语抽取算法改进 [J] . 强静 ,张建 . 计算机工程与应用 . 2008,第013期
6. 一种改进的统计机器翻译系统融合方法 [C] . 张振中 ,孙乐 ,张大鲲 . 第五届全国机器翻译研讨会 . 2009
7. 中介语统计机器翻译模型若干改进研究 [A] . 杨茂生 . 2016

改进汉英统计机器翻译模型的教学方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅