首页> 中文学位 >基于主动学习的双语资源缺乏语言对的统计机器翻译研究
【6h】

基于主动学习的双语资源缺乏语言对的统计机器翻译研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1绪论

1.1 研究背景及意义

1.2 统计机器翻译

1.3 国内外研究现状

1.4 论文的组织结构

2 Web数据获取技术研究

2.1 Web数据采集技术

2.2 基于Python的Web数据抓取

2.3 系统实现

2.4 运行结果

2.5 本章小结

3 基于主动学习的双语数据获取方法研究

3.1 主动学习概述

3.2 基于主动学习的双语平行数据获取框架

3.3 富含信息量的句子选择算法

3.4 实验

3.5 本章小结

4 改进的基于主动学习的句子选择方法研究

4.1 数据统计与发现

4.2 句长约束条件下的句子选择方法

4.3 带句长惩罚因子的句子选择算法

4.4 本章小结

5 结论与展望

5.1 论文总结

5.2 论文展望

致谢

参考文献

攻读硕士学位期间发表的论文及参加的科研项目

展开▼

摘要

面向双语资源缺乏语言对的机器翻译研究是机器翻译领域研究的热点和难点问题。本课题以资源缺乏语言对的统计机器翻译为研究背景,采用主动学习策略,设计了有效的富含信息量句子选择算法,从大规模单语语料中获取高质量的双语数据,发挥有限双语数据的最大效能,以显著改善面向双语资源缺乏语言对的统计机器翻译性能。
  互联网是信息传播及存储的有效载体,从互联网获取大规模单语数据是木课题解决双语数据缺乏的首要问题。课题建立了web抽取模型,捕述了抓取程序的算法设计及实现步骤,并以抓取某知识网站为例进行了数据抓取实验,实验结果说明了以瓦联网为知识源获取大规模单语数据的可行性。
  本课题首先介绍了主动学习的三种主要算法,然后描述了基于短语、N元文法及句子凼惑度的句子选择策略。最后根据课题研究中所发现的句长对句子选择算法性能影响的问题,分别提出了最短句长约束方法和句长惩罚方法,以改进富含信息量句子选择算法。以句子随机挑选算法作为基线方法,采用Moses作为统计机器翻译实验系统,在汉——英NIST机器翻译数据集上进行双语数据获取与机器翻译性能实验。实验结果表明,本课题所提出的基于句长约束方法(即设置最短句长闽值,过滤短于闽值的句子)及句长惩罚方法(即在句子选择算法公式中引入句长惩罚因子),使得前述的三种富含信息量句子选择算法优于随机选择算法,得到的双语平行数据使得统计机器翻译性能得到显著性提高,表明了课题所提出的基于主动学习方法的双语平行数据获取策略的可行性和有效性。最后,对实验结果进行分析,发现在小规模受限资源的统计机器翻译系统中,“利用”(exploitation)往往比“探索”(exploration)更重要,即在双语词汇规模一定时,提高双语短语的概率估计的准确性在提高翻译质量方面优于提高新词的覆盖率,即相对扩大双语词汇规模。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号