首页> 中文学位 >融入头-修饰词调序模型的短语统计机器翻译方法研究
【6h】

融入头-修饰词调序模型的短语统计机器翻译方法研究

代理获取

目录

融入头-修饰词调序模型的短语统计机器翻译方法研究

INTERAGTING HEAD-MODIFIER BASEDWORD-LEVEL REORDERING MODEL FORPHRASE-BASED SMT

摘 要

Abstract

目 录

Contents

第 1 章 绪论

1.1 课题的研究背景和意义

1.2 研究现状

1.2.1 基于串的机器翻译模型

1.2.2 基于显式句法的机器翻译模型

1.2.3 在基于串的模型中融入语言学分析的机器翻译模型

1.3 本文研究内容

第 2 章 基于头-修饰结构的头驱动完全句法分析

2.1 引言

2.2 完全句法分析与基于头-修饰结构的头驱动文法

2.2.1 基于 n 元文法的完全句法分析

2.2.2 基于数据驱动的完全句法分析

2.2.3 基于头-修饰结构的头驱动句法分析

2.2.4 完全句法分析与机器翻译的相关性

2.3 数据稀疏与直接插值平滑算法研究

2.3.1 头驱动句法分析的概率模型

2.3.2 头驱动句法分析中的平滑算法

2.3.3 条件极大似然估计(MCLE)空间下的插值平滑算法

2.3.4 头驱动句法分析模型下的直接插值平滑算法

2.3.5 基于统计误差分析的直接插值权值建模与分析

2.4 实验及讨论

2.5 本章小结

第 3 章 基于头-修饰的词调序模型

3.1 引言

3.2 基于翻译概率的对齐处理算法

3.2.1 面向词级别调序模型的对齐约束

3.2.2 基于对齐约束和翻译概率的对齐处理算法

3.3 词级别的调序模型

3.3.1 基于翻译参照词的序

3.3.2 基于调序参照词的两种词级别调序

3.3.3 基于翻译参照词的高维调序

3.3.4 词级别的翻译的调序模型的参数估计

3.4 融入头-修饰结构的词级别调序模型

3.4.1 基于头-修饰依存结构的调序

3.4.2 基于头-修饰结构调序模型中的上下文

3.5 实验及讨论

3.6 本章小结

第 4 章 基于翻译状态剪枝的短语机器翻译解码算法

4.1 引言

4.2 基于短语的机器翻译模型及其调序问题

4.2.1 基于短语模型的翻译模型

4.2.2 基于短语模型中的调序问题

4.3 基于短语机器翻译中的剪枝策略

4.3.1 风险剪枝策略

4.3.2 无风险剪枝策略

4.3.3 基于无风险剪枝的翻译路径的组织方法

4.4 基于短语的机器翻译模型的解码算法

4.4.1 基于翻译状态的 1-best 解码方法

4.4.2 基于翻译状态的 n-best 解码方法

4.5 实验及讨论

4.5.1 实验语料

4.5.2 解码器设置和翻译模型

4.5.3 实验结果讨论

4.6 本章小结

第 5 章 融入头-修饰结构的基于短语的机器翻译

5.1 引言

5.2 基于头-修饰成分的机器翻译模型的训练方法

5.2.1 头-修饰成分的抽取方法

5.2.2 调序模型的抽取方法

5.3 融入词级别调序模型的机器翻译的解码算法

5.4 实验及讨论

5.4.1 实验设置

5.4.2 实验结果及讨论

5.5 相关方法的比较

5.6 本章小结

结 论

参考文献

攻读博士学位期间发表的学术论文及其它成果

哈尔滨工业大学学位论文原创性声明及使用授权说明

致 谢

个人简历

展开▼

摘要

机器翻译是自然语言处理领域一个古老而经典的课题。机器翻译经历了从词到短语,从规则到统计的演变过程。目前机器翻译的研究正日趋成熟,融入句法信息的统计机器方法成为目前机器翻译领域的一个热点。
  我们提出了一个将完全句法分析信息融入短语统计机器翻译的方法,并根据该方法实现了一个基于源语言端完全句法分析的机器翻译系统。该系统前端以一个完全句法分析器作为输入,翻译系统的框架采用基于短语的机器翻译解码算法;在翻译过程中,解码器首先将源语言的完全句法结构转化成头-修饰结构,在解码过程中融入基于头-修饰的调序模型改善翻译系统的调序,进而明显的提升了短语系统的翻译性能。
  具体的,本文工作主要包含以下几个部分内容:
  (1)在前端的完全句法分析算法中,我们采用了基于词汇化头-修饰上下文的头驱动句法分析模型。数据稀疏是词汇化模型的重要问题,平滑方法是似然模型中解决数据稀疏的主要方法。本文在头驱动句法分析模型下,基于经典插值平滑算法,提出了以统计空间中平均事件数为基础的直接插值平滑算法,并应用经典的误差理论分析了该算法的合理性。基于该算法,并借鉴了语言模型中其他插值平滑算法对模型的零点进行假设的方法,在头驱动句法分析模型下,重新构造了4种平滑算法。
  (2)提出了面向短语机器翻译的词级别调序模型。为了将该调序模型融入到机器翻译系统中,本文提出了两个对齐约束。基于该对齐约束,文中给出了一个基于翻译概率的对齐后处理方法。基于处理后的对齐结构,文中模型定义了基于调序参照词的两种调序。基于该调序定义,进一步提出了将两种将头-修饰结构融入该调序模型的方法,并给出了该模型的参数估计方法。
  (3)短语模型的解码算法是短语的机器翻译系统的核心部分。提出了基于翻译状态的短语机器翻译系统的解码算法。该解码算法包含1-best解码方法和n-best解码方法。在解码过程中,翻译路径根据翻译状态进行组织。n-best解码中,采用限制翻译状态中翻译数目的方法,将n-best的多样性控制在一定范围内。由于文中算法综合考虑了翻译状态、翻译模型以及解码算法之间的联系,文中提出的n-best解码算法在两个数据集合上明显的提升了翻译质量。
  (4)提出了头-修饰的模型训练方法,以及将词级别调序模型融入短语机器翻译解码过程的方法。在模型训练中,采用移入-规约的算法训练本文的基于头-修饰结构的调序模型。在解码过程中,算法引入词索引数据结构,以识别解码过程中的调序类型。实验结果显示,我们提出的调序模型可以明显的改善基线系统的局部调序能力。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号