首页> 中文学位 >非连续短语模板抽取及短语合并在统计机器翻译中的应用
【6h】

非连续短语模板抽取及短语合并在统计机器翻译中的应用

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1机器翻译简介

1.2机器翻译的分类

1.3机器翻译存在的问题

1.4课题研究背景

1.5论文结构

第二章统计机器翻译的主要模型及基本原理

2.1基于信源信道模型的统计机器翻译

2.1.1统计语言模型和N元语法模型

2.1.2.IBM统计翻译模型

2.1.3双语词对齐

2.1.4双语词对齐的评测

2.2基于最大熵的统计机器翻译模型

2.3统计机器翻译的评测方法

2.3.5机器翻译自动评测的几个常用评价指标

2.3.6基于测试点的机器翻译自动评测系统

2.3.7 IBM的BLEU评测方法

第三章基于短语的汉英统计机器翻译系统模块介绍

3.1基于短语的统计机器翻译特点

3.1.1短语翻译模型的数学描述

3.1.2词对齐的优化

3.1.3双语连续短语抽取

3.1.4基于短语SMT中的调序模型

3.2解码器

3.2.5翻译候选项

3.2.6核心搜索算法

3.2.7假设重组

3.2.8柱式搜索

3.2.9未来花销估计

3.3总结

第四章非连续短语模板抽取及短语合并在SMT中的应用

4.1非连续短语模板的抽取

4.1.1非连续介词短语模板抽取在整个机器翻译中所处的位置

4.1.2非连续介词短语模板抽取算法

4.2短语合并

第五章实验结果对比分析及SMT前景展望

5.1基于短语的统计机器翻译系统平台架构

5.1.1实验环境

5.1.2预处理模块

5.1.3对齐模块

5.1.4短语抽取模块

5.1.5语言模型模块

5.1.6参数训练和解码器模块

5.1.7评测模块

5.2对比评测结果

5.3实验结论、意义及前景展望

参考文献

发表论文和科研情况说明

致谢

展开▼

摘要

机器翻译(MT)就是利用计算机将一种自然语言的文本或对话转换为另一种自然语言的文本或对话,同时保持语意的一致性。在给定源语言的情况下,机器翻译的过程就是寻找与源语言在语意上最为匹配的目标语言的决策过程。在各种不同的机器翻译系统中,基于短语的统计机器翻译(Phrased-Based SMT)无疑是最为有效的方法。 基于短语的统计机器翻译方法允许源语言和目标语言词语之间存在多对多的关联,从对齐矩阵中抽取出来的短语被放置在短语翻译表中。这样,词语的上下文信息在翻译模型中就可以被考虑进来,并且在把源语言翻译成目标语言过程中所发生的单词之间位置顺序的改变也可以显式的获得。在汉-英机器翻译系统中,基于短语的统计翻译模型较之单纯基于单词的统计翻译模型,翻译效果有着显著的提高。 但是,这种方法同时也存在着一些问题。由于短语长度的限制,一些在中文中间隔较远的固定结构并不能被完整的抽取出来。这些结构在中文句子中不连续,而其对应翻译却在英文句子中连续。并且,对短语各个部分分别进行翻译拼凑起来的结果并不等价于将其做为一个整体翻译而获得的结果。 本文通过在短语翻译表中加入非连续短语模板和短语合并项来增强机器翻译的效果。短语模板抽取和短语合并过程并不涉及任何的语法信息,仅仅只是从双语对齐语料中获得。本文将简要的介绍抽取和合并的算法细节,并以BLEU做为翻译结果的评测标准,在2002年至2005年NIST(National Institute of Standards and Technology)标准测试语料集上进行对比实验。实验结果表明,加入短语模板和短语合并项后,翻译质量与先前系统相比有了一定程度的提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号