首页> 中文学位 >基于判别式模型的树到树统计机器翻译
【6h】

基于判别式模型的树到树统计机器翻译

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景

1.2 研究动机

1.2.1 传统翻译模型的局限性

1.2.2 判别式模型的优势

1.3 论文组织结构

第2章 相关技术概述

2.1 统计机器翻译基本流程

2.1.1 模块概述

2.1.2 预处理

2.1.3 词对齐

2.1.4 翻译规则学习

2.1.5 权重调优

2.1.6 解码

2.1.7 评价

2.2 判别式学习

2.3 依存句法分析

2.4 翻译模型概述

2.4.1 基于词的翻译模型

2.4.2 基于短语的统计机器翻译模型

2.4.3 基于层次短语的统计机器翻译模型

2.4.4 串到树的统计机器翻译模型

2.4.5 树到串的统计机器翻译模型

2.4.6 树到树的统计机器翻译模型

2.5 语言模型

2.5.1 语言模型概述

2.5.2 数据稀疏问题的解决

第3章 基准系统

3.1 基准系统概述

3.2 数据集

3.2.1 IWSLT

3.2.2 GEO

3.3 基于短语结构的基准系统

3.3.1 短语结构基准系统的参数细节

3.3.2 短语结构基准系统性能

3.4 基于句法结构的基准系统

3.4.1 句法结构基准系统的参数细节

3.4.2 句法结构基准系统的性能

3.5 评价方法

3.5.1 BLEU

3.5.2 METEOR

3.6 本章小结

第4章 基于判别式模型和词排序技术的树到树机器翻译系统

4.1 感知机模型

4.1.1 模型定义

4.1.2 模型介绍

4.1.3 应用任务

4.1.4 参数学习

4.2 词排序

4.2.1 概述

4.2.2 应用

4.2.3 词排序举例

4.2.4 模型

4.3 依存句法分析

4.3.1 依存句法树简介

4.3.2 依存句法分析算法

4.4 系统实现

4.4.1 系统框架和流程

4.4.2 双语数据预处理

4.4.3 词对齐

4.4.4 双语句法分析

4.4.5 短语表抽取和翻译概率统计

4.4.6 翻译选项过滤

4.4.7 模型训练

4.4.8 模型解码

4.4.9 后处理

4.4.10 评价

4.5 翻译模型及特征模板

4.5.1 单语特征

4.5.2 语言模型

4.5.3 双语特征

4.6 本章小结

第5章 实验

5.1 IWSLT

5.1.1 开发集性能

5.1.2 测试集性能

5.1.3 翻译举例

5.2 GEO

5.2.1 开发集性能

5.2.2 测试集性能

5.2.3 翻译举例

5.3 本章小结

第6章 工作总结与展望

6.1 创新

6.2 挑战

6.3 未来

参考文献

致谢

硕士期间参加的科研项目

展开▼

摘要

本文提出并实现了一种全新的基于判别式模型和依存句法结构的树到树的统计机器翻译技术及框架,且性能堪比目前最好的基于句法的机器翻译模型。这种框架可以更灵活的利用目标语端的句法结构,以达到更好的翻译效果,这项工作为将来的统计机器翻译的研究工作提供了另一种可行的方法。
  和目前已有的方法不同,本文提出的方法将机器翻译任务当作目标语端的句子生成任务。使用多种特征来捕捉和学习双语端的句法结构、短语互译等信息,且首次将依存句法结构运用到了翻译规则中。本文工作所使用的判别式模型(感知机)不同于传统机器翻译中的生成式模型,可以很好的在丰富特征的基础上学习参数,提高模型的鉴别能力,这对解码过程十分重要。
  在训练时,首先进行双语端数据预处理工作,将双语句对中出现时间、数字、日期、人名、地名等不可枚举的词串识别出来并进行泛化和翻译。接着是对双语数据进行依存句法分析,为每一个双语句对找到两棵依存句法树。在此基础上进行词对齐训练,词对齐训练的任务是为双语句对中的词和词之间找到相互对应的关系。在词对齐信息和双语依存句法信息已知的情况下,从每一个双语句对中抽取出包含依存信息的翻译规则。然后,以双语端句法树和句法翻译规则表作为输入,在迭代式的构建目标语树的过程中,不断学习特征的权重(包括传统的短语翻译概率、语言模型、调序模型等特征,也包括本文工作特有的双语端句法树特征),这些权重最终被保存到模型中。在解码时,以源语端依存句法树作为输入,利用翻译规则转化为目标语端的依存片段,加载训练时得到的模型中的参数,这些参数会在解码时指导翻译过程,帮助解码器构建一颗目标语端的句法树。
  在IWSLT2010年机器翻译评测数据上,本文所提出的方法,在性能上高于目前最优的串到树、树到树和树到串系统,略差于目前最优的短语和层次短语系统。在GEOQuery Data语料上,本系统性能超过目前最优的句法和短语系统,与目前最优的层次短语系统性能相当。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号