首页> 中文学位 >基于机器学习的少数民族语言翻译关键技术研究与实现
【6h】

基于机器学习的少数民族语言翻译关键技术研究与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 研究背景与研究意义

1.2 国内外研究现状

1.3 研究目标与研究内容

1.4 本文组织结构

第二章 相关理论与技术

2.1 引言

2.2 统计机器翻译的重要概念

2.3 对数线性模型

2.4 基于短语的统计机器翻译

2.5 自动评测技术

2.6 本章小结

第三章 基于非连续短语的翻译策略

3.1 引言

3.2 问题描述

3.3 短语的连续性与非连续性

3.4 基于非连续源短语的翻译模型

3.5 实验与结果分析

3.6 本章小结

第四章 基于词典的OOV问题消除策略

4.1 引言

4.2 问题描述

4.3 语言模型对翻译的影响

4.4 基于词典的翻译策略

4.5 实验与结果分析

4.6 本章小结

第五章 机器翻译系统设计与实现

5.1 引言

5.2 系统设计

5.3 系统安装

5.4 系统使用

5.5 系统评测

5.6 本章小结

第六章 总结与展望

6.1 本文总结

6.2 未来展望

致谢

参考文献

攻读硕士学位期间取得的成果

展开▼

摘要

中国是一个多民族组成的国家,文化多种多样,语言沟通成为促进民族发展、民族团结和共同繁荣的重要因素,而语言翻译是解决语言沟通不畅问题的主要手段。然而人工翻译已经无法满足人们对翻译的需求。另一方面,利用机器进行语言翻译的理论和技术,在学术界和工业界的不懈努力下不断更新和成熟。响应社会发展、民族团结稳定的号召,机器翻译迫切需要应用到社会生活中。研究针对少数民族语言机器翻译的技术意义重大。
  本文研究的基于短语的统计机器翻译,运用机器学习思想,以对数线性模型为理论基础,以短语为基本翻译单元,是目前较为先进和成熟的机器翻译方法。尽管该方法在英法、中英等大语种翻译中有令人满意的表现,但是在某些情形下数据稀疏和长距离调序能力弱的问题比较显著。少数民族语法结构与汉语存在较大差异,可获得的语料库规模小,而且针对少数民族语言的计算语言学研究不充分,种种因素使得少数民族语言翻译的效果很难达到应用目标。针对少数民族语言翻译的难点,本文采取基于短语的统计机器翻译技术路线,完成了以下工作:
  (1)总结了基于短语的统计机器翻译及其关键技术。本文首先对统计机器翻译的数学模型以及翻译流程中的关键步骤进行了完整阐述,接着对翻译结果的自动评测方法做了详尽的论述。
  (2)提出了一套应对小规模语料库的非连续源短语的翻译策略。传统短语模型只抽取连续短语,为了从少数民族的小规模语料库中挖掘更多信息并加以利用,本文探索了源语言端非连续、目标语言端连续的翻译策略,论证了用于抽取非连续短语的新算法,阐述了改进后的模型并实现了相应的解码算法。
  (3)提出了一种利用词典消除少数民族翻译中OOV(Out Of Vocabulary)问题的方法。OOV产生是因为语料库无法覆盖所有的词语,本文阐述了加入词典的用于消除OOV的翻译方法,并给出了相应的算法。
  最后,基于上述创新点和本人的其他相关研究工作,本文实现了一个少数民族语言到汉语的机器翻译系统,并部署到相关单位得到了实际运用。实验结果表明采用了本文的改进算法之后,翻译结果比Baseline的更理想。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号