首页> 中文学位 >基于半监督学习的统计机器翻译研究
【6h】

基于半监督学习的统计机器翻译研究

代理获取

目录

摘 要

ABSTRACT

目 录

Contents

表 格

插 图

第 1 章 绪论

1.1 研究意义和背景

1.2 统计机器翻译的研究现状

1.2.1 翻译模型

1.2.2 语言模型

1.2.3 调序模型

1.2.4 特征权重训练方法

1.3 半监督学习方法

1.3.1 有监督学习、无监督学习和半监督学习

1.3.2 半监督学习的优势

1.3.3 主要的半监督学习方法

1.4 半监督学习在 SMT 中的应用

1.5 论文主要研究内容

第 2 章 基于增强ITG的半监督词对齐方法

2.1 引言

2.2 词对齐与反向转换文法

2.3 增强的反向转换文法

2.3.1 反向转换文法的标准化形式

2.3.2 引入层次短语的反向转换文法

2.4 基于超图的 ITG 对齐

2.5 判别的剪枝方法

2.5.1 对数线性模型的剪枝方法

2.5.2 训练样本的获取

2.5.3 面向 ITG 剪枝的最小错误率训练方法

2.5.4 剪枝模型的特征

2.6 基于半监督( EMD )的 ITG 词对齐模型

2.6.1 词对齐的对数线性模型及其特征

2.6.2 近似 EM 训练特征值

2.6.3 半监督的训练方法训练特征值 和特征权重

2.7 实验及结果分析

2.7.1 实验数据

2.7.2 判别剪枝

2.7.3 P-ITG 对齐 和 HP-ITG 对齐

2.7.4 使用 EMD 的 HP-ITG 对齐

2.8 本章小结

第 3 章 面向 SMT 的半监督的句法分析模型重训练

3.1 引言

3.2 面向SMT的句法分析的主要问题

3.2.1 SSMT 中的句法分析和词对齐不一致问题

3.2.2 相关工作

3.3 句法分析的重训练方法

3.3.1 基于边界集的目标化自学习方法: TST-FS

3.3.2 基于强制对齐的重训练方法: FA-PR

3.4 词对齐的融合

3.4.1 考虑句法分析的对齐融合方法: IDSG

3.4.2 新对齐融合方法和句法重训练方法的结合

3.5 实验及结果分析

3.5.1 实验数据和基准系统

3.5.2 句法分析重训练的性能分析

3.5.3 对齐融合方法的性能分析

3.5.4 词对齐融合和句法重训练方法的结合

3.6 本章小结

第 4 章 基于自/互学习的 SMT 特征权重领域自适应

4.1 引言

4.2 特征权重的领域自适应问题

4.3 面向 SMT 的协同权重训练方法

4.3.1 SMT 的最小错误率训练

4.3.2 互学习框架下的最小错误率训练

4.3.3 最小贝叶斯风险的准参考译文选择

4.4 实验及结果分析

4.4.1 互学习的实验结果及分析

4.4.2 互学习同自学习方法的比较

4.4.3 参与互学习的测试集的大小对性能的影响

4.5 本章小结

第 5 章 基于图的翻译解码半监督学习方法

5.1 引言

5.2 SMT 中的一致性问题

5.3 结构化的基于图的半监督学习方法

5.3.1 基于图的半监督学习方法

5.3.2 标准的标记传播算法

5.3.3 结构化的标记传播算法

5.4 基于图的一致性翻译模型

5.4.1 基于图的一致性特征

5.4.2 其他的特征

5.4.3 半监督的训练方法

5.5 面向 SMT 的一致性图的构造

5.5.1 翻译结果重排序的图构造

5.5.2 翻译解码的图构造

5.6 实验及结果分析

5.6.1 实验数据和基准系统

5.6.2 实验及结果分析

5.7 本章小结

结论

参考文献

攻读博士学位期间发表的论文

哈 尔 滨 工 业 大 学 学 位 论 文 原 创 性 声 明 及 使 用 授 权 说 明

致 谢

个人简历

展开▼

摘要

互联网的飞速发展所产生的越来越多的双语数据,使得基于统计的机器翻译( SMT)成为了机器翻译领域的主流方法。然而相比已标注数据(双语句对,词对齐结果等),可用于统计机器翻译的未标注数据(单语的句子,未标注对齐的双语句对等)更容易获得,其数量也远远大于已标注的数据。如何利用未标注数据提高统计机器翻译的质量成为一个热门的研究方向。半监督的学习方法,能够利用未标注数据参与模型的训练和优化,提高统计模型的性能,在SMT中的应用也越来越受到重视。本篇博士论文将深入地研究如何将半监督的学习方法(包括自学习、互学习和基于图的学习)应用于统计机器翻译的各个阶段(包括词汇对齐、规则抽取,特征权重训练、翻译重排序和解码),提高统计机器翻译的质量。论文组织如下:
  1.针对基于反向转换文法词汇对齐中的1-1对齐约束,本文通过引入短语对和层次短语对提出了增强的反向转换文法,并使用半监督训练方法来训练对数线性模型中的特征值和特征权重,以提高基于反向转换文法的词汇对齐的性能,从而可以抽取更为准确的翻译规则,提高SMT的性能。
  2.针对基于句法的SMT(SSMT)的规则抽取中词汇对齐和句法分析不一致的问题,本文提出了基于边界集的目标化自学习方法和基于强制对齐的重训练方法,来利用词对齐信息修正句法分析结果中的错误,从而改善了翻译规则的质量,提高了SSMT的性能。
  3.针对特征权重训练中的领域适应问题,本文提出了基于最小贝叶斯风险的自学习和互学习方法。为解决自学习和互学习训练过程中的不稳定现象,本文使用了基于最小贝叶斯风险的句子级系统融合方法来选择合适的翻译候选参与自学习和互学习的训练,显著地提高了目标领域上的翻译性能。
  4.针对翻译结果的一致性问题(即相似的输入句子应该得到相似的翻译结果),本文使用了基于图的半监督方法,将SMT看做结构学习问题,并针对该问题提出了结构化的标记传播算法。本文进一步地将结构化标记传播算法获得的一致置信度作为特征,应用于常用的对数线性模型中,将该模型应用于SMT的重排序和解码,提高了SMT的性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号