首页> 中文学位 >改进汉英统计机器翻译模型的教学方法研究
【6h】

改进汉英统计机器翻译模型的教学方法研究

代理获取

目录

文摘

英文文摘

Table of Contents

第1章 引言

1.1 统计机器翻译发展概况

1.1.1 基于噪声信道模型的机器翻译

1.1.2 基于实例的机器翻译方法

1.1.3 基于对数线性模型的统计机器翻译

1.1.4 基于句法的机器翻译模型

1.2 统计机器翻译的研究现状和难点

1.3 本文的研究意义和价值

1.3.1 合理利用网络上的非平行语料

1.3.2 依据赫夫曼算法改进解码方法

1.3.3 带约束条件的翻译模型

1.4 本文的研究内容及方法

1.4.1 基于非平行语料的半监督传导学习方法

1.4.2 基于赫夫曼树的解码算法

1.4.3 带约束条件的最小错误率模型

第2章 基于非平行语料的半监督传导学习

2.1 双语语料库的句子对齐技术

2.2 半监督的机器学习方法

2.3 有的研究成果

2.4 系统框架

2.5 系统实现

2.5.1 候选平行句对获取方法

2.5.2 评分步骤

2.5.3 选择步骤

2.5.4 非平行语料举例

2.5.5 平行句对的获取

2.6 实验结果

2.7 非平行语料用于机器翻译的意义和局限性

第3章 基于赫夫曼编码的解码算法

3.1 机器翻译中的解码算法

3.1.1 基于栈的解码算法

3.1.2 A*搜索算法

3.1.3 贪心爬山解码算法

3.1.4 动态规划法

3.2 Huffman解码算法

3.2.1 单栈的Huffman解码算法

3.2.2 多栈的Huffman解码算法

3.2.3 与传统解码算法的比较

3.2.4 实验结果及分析

3.3 结论

第4章 带约束条件的最小错误率模型

4.1 基于短语的最小错误率训练

4.1.1 基于短语的统计机器翻译

4.1.2 最小错误率训练(MERT)

4.1.3 最小错误率训练的权重优化算法

4.1.4 译文质量的自动评测

4.2 函数之间的独立性假设

4.2.1 贝叶斯公式的独立性假设

4.2.2 KCD的特征函数独立性假设

4.3 带约束条件的机器翻译模型

4.3.1 函数之间的条件概率

4.3.2 带约束条件的公式

4.3.3 坐标系对于参数训练的影响

4.3.4 坐标系的建立

4.3.5 搜索方向的旋转

4.3.6 SM-KCD的训练过程

4.4 特征函数的相关性

4.4.1 数相关性的已有研究

4.4.2 上下文有关特征函数的相关性

4.4.3 其他特征函数

4.4.4 函数相关性的不确定性

4.5 实验结果

4.5.1 基线翻译系统

4.5.2 语料准备

4.5.3 基准测试

4.5.4 开发测试集和最终测试集

4.5.5 单个权重约束条件实验

4.5.6 两个权重约束条件实验

4.6 译文对比

4.7 已有系统实验结果比较

4.8 兼容性

4.9 结论

第5章 结语

附录

1 常用术语表

2 非平行语料的平行句对抽取程序

3 赫夫曼解码主要程序

4 带约束条件的最小错误率训练主要程序

参考文献

攻读博士学位期间的主要科研项目和成果

致谢

展开▼

摘要

统计机器翻译方法经历了从传统的规则到噪声信道模型,再到对数线性模型的转变。在诸多统计机器翻译技术中,基于短语的最小错误率训练是一种被广泛采用的统计翻译方法。本文依据数学原理,提出三种改进统计机器翻译系统的方法:(1)基于非平行语料的半监督传导学习(2)基于赫夫曼编码的解码算法(3)带约束条件的最小错误率训练。在基于短语的统计机器翻译系统Moses基础上应用上述三种方法进行汉英翻译实验,其中,带约束条件的最小错误率训练使得机器翻译系统性能得到显著提高。
  本文在半监督传导学习方法的框架下,利用网上可以自由获取的非平行可比双语语料,通过迭代方法增加训练语料的规模,使得机器翻译系统可以用于平行语料较少的语言对。这种方法为统计机器翻译系统获取训练语料开辟了一个崭新的思路。
  另外,还应用传统的赫夫曼编码树技术,改进已有的栈解码算法。这种方法通过使用合并策略而不是扩展策略生成新的假设,可以提高解码算法的效率,节约存储空间。实验结果表明,赫夫曼解码可以在保证译文质量的前提下,降低解码算法的时间复杂度,将解码速度提升16倍,使得统计机器翻译系统可以更加适应于对大规模数据的快速翻译。
  根据贝叶斯公式,组成模型的各个函数之间存在独立性假设。然而,由于被用于描述语言现象的不同侧面,模型的部分函数之间有着必然的联系。在最小错误率模型的基础上,提出带约束条件的函数决策公式。函数之间的条件概率关系被做为约束条件加入翻译模型,从而在训练参数时,增强函数之间的关联性。
  实验结果表明,函数决策公式的约束条件对统计机器翻译系统通过训练生成的参数产生影响。通过函数之间的约束条件调节,可以获得多个满足译文最小错误率的局部最优点。数百次的实验表明,开发测试集获得的约束条件参数能够显著提高系统在最终测试集上的评测结果。因此,适当的约束条件有助于基于最小错误率训练的翻译系统性能的提高。
  以往的噪声信道模型、最大熵模型和最小错误率模型所依据的最优化函数都是无约束的。这种加入约束条件的方法在不增加系统的内存空间和执行时间的情况下,能够和各种改进最小错误率训练的方法一起使用,兼容性强,因此可以被广泛应用于统计机器翻译系统中。约束条件的加入使得机器翻译系统的模型参数更加适应测试语料,在没有使用其他外部资源(句法知识、人工规则等)的情况下,系统性能得到提高。只要找到更适合的约束条件,就有可能进一步提高统计机器翻译的性能,说明这种方法有广阔的发展空间。
  综上所述,数学方法的改进对统计机器翻译系统至关重要。面对大规模的语言知识和统计数据,更好的数学模型能够帮助统计机器翻译系统更有效地整合各种信息,输出高质量的译文并降低系统执行所占用的时间和空间。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号