首页> 中文学位 >基于短语统计机器翻译的柱搜索解码器的优化及实现
【6h】

基于短语统计机器翻译的柱搜索解码器的优化及实现

代理获取

目录

中国科学技术大学学位论文相关声明

摘要

第一章绪论

1.1 引言

1.2机器翻译的分类

1.2.1基于规则机器翻译方法

1.2.2基于实例的机器翻译方法

1.2.3基于统计的机器翻译方法

1.3统计机器翻译方法的演变

1.3.1从信源信道模型到最大熵方法

1.3.2从基于词的模型到基于短语的模型

1.4统计机器翻译解码算法

1.5本论文的提出

1.6本论文的结构框架

第二章基于短语统计机器翻译的模型研究

2.1统计语言模型

2.1.1 N-gram统计语言模型

2.1.2数据平滑技术

2.2短语翻译模型

2.2.1短语翻译模型的介绍

2.2.2构建短语翻译模型

2.3附加模型

2.3.1扭曲模型

2.3.2长度惩罚模型

第三章柱搜索解码器的设计与实现

3.1解码器的实现原理与框架

3.2模型存储结构设计

3.2.1语言模型存储结构

3.2.2短语翻译表存储结构

3.3翻译选项

3.3.1翻译选项表的构建

3.3.2翻译选项表的过滤

3.4将来概率计算

3.4.1将来概率表构建算法

3.4.2扭曲模型将来概率计算

3.5柱搜索解码

3.5.1翻译假设的概念

3.5.2柱搜索算法

3.5.3柱搜索算法的剪枝策略

3.6 N-best回溯

3.6.1 N-best路径信息保存

3.6.2 N-best回溯算法

第四章柱搜索解码器优化方法的研究

4.1剪枝策略的优化

4.1.1动态剪枝策略

4.1.2预剪枝策略

4.2位置重排限制策略

4.2.1目前的位置重排限制策略

4.2.2改进的位置重排限制策略

4.3其他优化技术

4.3.1对象池技术

4.3.2领域术语翻译

第五章系统相关实验与分析

5.1 引言

5.2评测方法介绍

5.2.1人工评测

5.2.2自动评测

5.3实验与结果分析

5.3.1实验数据准备

5.3.2翻译选项实验与分析

5.3.3剪枝策略实验与分析

5.3.4位置重排限制策略试验与分析

5.3.5与Phramer对比实验

5.4本章小结

第六章结论与展望

6.1本文的主要成果及创新

6.2研究展望

参考文献

致谢

攻读硕士学位期间发表的论文及参与的项目

展开▼

摘要

基于短语的统计机器翻译方法是当前统计机器翻译研究的热点。在统计机器翻译中解码器的作用就是根据学习到的模型信息寻找源语言句子中最可能的目标译文。本文在柱搜索算法的基础上,设计并实现一个高效的基于短语统计机器翻译的解码器。 本文首先介绍了解码器中加入的多个特征模型,包括基本的短语翻译模型、目标语言模型以及附加的扭曲模型、词语惩罚模型、短语惩罚模型。解码器以这些特征模型作为信息输入,对源语言句子进行解码搜索。 柱搜索算法采用启发式规则对搜索过程中的节点进行高效剪枝,在人工智能领域中得到广泛的使用。本文采用柱搜索算法开展解码器的研究工作,其主要贡献是: 1、设计完成了整个解码系统,给出了系统构建中主要流程的一些算法。主要包括翻译选项表的构建、将来概率表的计算,柱搜索解码,n-best回溯等算法。 2、提出了改进的剪枝策略。动念剪枝策略提高栈大小剪枝精度,预剪枝策略根据栈阈值进一步提高剪枝速度。 3、提出了改进的位置重排限制方法。通过避免不完全路径和减少重复扩展的设计思想,提出一种新的位置重排限制方法。实验表明,该方法不仅能在扩展速度上比当前的位置重排限制提高一倍,而且扩展精度也得到提高。 4、提出了领域术语翻译方法。针对领域术语翻译效果不理想的问题,提出了利用术语词典对领域术语进行特殊处理的方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号