文摘
英文文摘
Table of Contents
第1章 引言
1.1 统计机器翻译发展概况
1.1.1 基于噪声信道模型的机器翻译
1.1.2 基于实例的机器翻译方法
1.1.3 基于对数线性模型的统计机器翻译
1.1.4 基于句法的机器翻译模型
1.2 统计机器翻译的研究现状和难点
1.3 本文的研究意义和价值
1.3.1 合理利用网络上的非平行语料
1.3.2 依据赫夫曼算法改进解码方法
1.3.3 带约束条件的翻译模型
1.4 本文的研究内容及方法
1.4.1 基于非平行语料的半监督传导学习方法
1.4.2 基于赫夫曼树的解码算法
1.4.3 带约束条件的最小错误率模型
第2章 基于非平行语料的半监督传导学习
2.1 双语语料库的句子对齐技术
2.2 半监督的机器学习方法
2.3 有的研究成果
2.4 系统框架
2.5 系统实现
2.5.1 候选平行句对获取方法
2.5.2 评分步骤
2.5.3 选择步骤
2.5.4 非平行语料举例
2.5.5 平行句对的获取
2.6 实验结果
2.7 非平行语料用于机器翻译的意义和局限性
第3章 基于赫夫曼编码的解码算法
3.1 机器翻译中的解码算法
3.1.1 基于栈的解码算法
3.1.2 A*搜索算法
3.1.3 贪心爬山解码算法
3.1.4 动态规划法
3.2 Huffman解码算法
3.2.1 单栈的Huffman解码算法
3.2.2 多栈的Huffman解码算法
3.2.3 与传统解码算法的比较
3.2.4 实验结果及分析
3.3 结论
第4章 带约束条件的最小错误率模型
4.1 基于短语的最小错误率训练
4.1.1 基于短语的统计机器翻译
4.1.2 最小错误率训练(MERT)
4.1.3 最小错误率训练的权重优化算法
4.1.4 译文质量的自动评测
4.2 函数之间的独立性假设
4.2.1 贝叶斯公式的独立性假设
4.2.2 KCD的特征函数独立性假设
4.3 带约束条件的机器翻译模型
4.3.1 函数之间的条件概率
4.3.2 带约束条件的公式
4.3.3 坐标系对于参数训练的影响
4.3.4 坐标系的建立
4.3.5 搜索方向的旋转
4.3.6 SM-KCD的训练过程
4.4 特征函数的相关性
4.4.1 数相关性的已有研究
4.4.2 上下文有关特征函数的相关性
4.4.3 其他特征函数
4.4.4 函数相关性的不确定性
4.5 实验结果
4.5.1 基线翻译系统
4.5.2 语料准备
4.5.3 基准测试
4.5.4 开发测试集和最终测试集
4.5.5 单个权重约束条件实验
4.5.6 两个权重约束条件实验
4.6 译文对比
4.7 已有系统实验结果比较
4.8 兼容性
4.9 结论
第5章 结语
附录
1 常用术语表
2 非平行语料的平行句对抽取程序
3 赫夫曼解码主要程序
4 带约束条件的最小错误率训练主要程序
参考文献
攻读博士学位期间的主要科研项目和成果
致谢