首页> 中文学位 >面向旅游领域的汉英统计机器翻译关键技术研究
【6h】

面向旅游领域的汉英统计机器翻译关键技术研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景和意义

1.2 机器翻译概述

1.3 旅游领域机器翻译存在的问题

1.4 本文研究内容

1.5 组织结构

第二章 统计机器翻译的相关研究

2.1 基于词的模型

2.2 基于短语的模型

2.3 基于句法的模型

2.4 近年研究热点

第三章 汉语旅游文本中非信息句识别研究

3.1 问题概述

3.2 总体思路

3.3 基于规则的非信息句识别方法

3.4 基于机器学习的非信息句识别方法

3.4.1 分类特征及特征选择

3.4.2 分类器

3.5 引入集成学习的半监督非信息句识别方法

3.5.1 基于Self-Training的半监督方法

3.5.2 引入集成学习的半监督方法

3.6 实验及讨论

3.6.1 实验设置

3.6.2 特征维度和正负类比例影响实验

3.6.3 引入集成学习的半监督方法效果实验

3.6.4 基于规则和基于统计方法串行的效果实验

3.7 本章小结

第四章 基于复述技术的汉语成语翻译方法研究

4.1 问题概述

4.2 总体思路

4.3 成语复述的获取

4.3.1 基于单语平行语料库的成语复述抽取方法

4.3.2 基于双语平行语料库的成语复述抽取方法

4.3.3 基于词典的成语复述抽取方法

4.3.4 三种方法的比较和分析

4.4 成语复述的替换选择

4.5 汉英SMT中成语复述替换方法

4.5.1 方法1:测试集成语复述瞢换

4.5.2 方法2:训练集成语复述替换

4.6 实验与讨论

4.6.1 实验设置

4.6.2 方法1性能测试实验

4.6.3 方法2性能测试实验

4.7 本章小结

第五章 汉英旅游统计机器翻译系统Backpacker构建

5.1 系统概要

5.2 系统实现

5.2.1 数据资源

5.2.1 数据处理

5.3 系统翻译实例分析

第六章 总结与展望

6.1 研究工作总结及其创新点

6.2 未来工作展望

参考文献

致谢

硕士期间科研成果

展开▼

摘要

机器翻译一直是自然语言处理领域的研究热点,随着统计机器翻译研究的逐步深入,机器翻译在理论和实践方面都取得了很大的进步。但是由于统计机器翻译方法依赖于训练语料,一些特定领域由于缺乏平行训练语料而导致其译文质量相当不理想。随着全球化的不断深入,跨境旅游已经成为人们日常消遣的一部分,面向旅游领域的机器翻译系统拥有很大的市场前景和研究意义。由于旅游平行训练语料的缺乏,使用通用机器翻译系统得到的旅游文本译文比较糟糕,因此,本文对旅游文本篇章特性进行研究以提高系统翻译质量,主要工作包括:
  (1)篇章预处理研究,我们提出了一种结合规则方法与机器学习方法并融合集成学习和半监督学习策略的汉语旅游文本非信息句识别模型。为了构造初始化种子标注集,我们首先根据非信息句的特点构造规则模板,采用规则的方法进行标注,然后我们将非信息句识别看成是一个二元分类问题并使用机器学习方法进行分类识别。由于规则方法所构造的训练集数量小且存在数据不平衡的特点,我们引入了基于Self-Training的半监督学习策略和集成学习的策略。实验结果表明,该模型具有较好的非信息句识别效果。
  (2)汉语成语翻译方法研究,与一般文本相比旅游文本中成语出现更为频繁,针对成语翻译问题,我们提出了基于复述技术的汉语成语翻译方法。首先我们实现并改进了三种复述获取方法以获取成语复述,从而构建了成语复述库;然后我们根据成语类别提出了成语复述替换的择优方法;接着我们通过在测试集和训练集中分别替换成语复述来实现对成语的改进翻译。实验结果表明,我们的方法可以解决成语在训练语料中未登录而无法翻译的问题并能减小由于训练语料中成语的稀疏性而导致的词对齐和概率估计错误问题,从而有效地提高了翻译系统的成语翻译能力,并在一定程度上改善了统计机器翻译系统的翻译效果。
  最后我们将上面两个研究工作结合开源工具Moses中的基于短语的统计机器翻译模型,构建了面向旅游领域的汉英统计机器翻译系统,翻译示例显示我们的系统在旅游文本上能有更好的翻译效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号