首页> 中文学位 >海量语言模型的研究及其在机器翻译中的应用
【6h】

海量语言模型的研究及其在机器翻译中的应用

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1统计语言模型简介

1.2机器翻译简介

1.3本文的工作

第二章统计语言模型

2.1理论基础

2.1.1概率论基础

2.1.2最大似然估计

2.1.3 n元语言模型(N-gram模型)

2.1.4其他语言模型

2.1.5语言模型的评价标准

2.2经典平滑算法

2.2.1加法平滑技术

2.2.2 Good-Turing平滑算法

2.2.3 katz平滑算法

2.2.4线性插值平滑

2.2.5 Witten-Bell平滑算法

2.2.6 Kneser-Ney平滑算法

2.3海量语言模型

2.3.1分块-合并算法

2.3.2分布式语言模型

2.3.2更简单的平滑算法

2.4小结

第三章海量语言模型的训练

3.1 Google Web 1T语料库

3.2总体设计

3.2.1设计原则

3.2.2语言模型的训练流程

3.3词典的生成和快速存取算法

3.4 n-gram计数

3.5语言模型的生成

3.5.1语言模型的数据结构

3.5.2数据结构中字段大小的设置

3.5.3从n-gram计数文件创建语言模型

3.6小结

第四章海量语言模型的调用

4.1动态链接库

4.2语言模型服务器

4.3分布式语言模型

4.3.1子语言模型的切割

4.3.2分布式语言模型的架构

第五章在机器翻译系统中的实验结果

5.1实验结果

5.2机器翻译结果示例

第六章总结展望

参考文献

致谢

展开▼

摘要

近年来,随着自然语言处理技术的发展和大规模语料库的出现,各类自然语言应用中使用的语言模型规模也越来越大。机器翻译是大规模语言模型的主要应用领域之一,语言模型有助于机器翻译时选择更符合目标语言习惯的翻译项,研究结果表明,语言模型训练语料的增大可以稳定地提高翻译的效果。故海量语言模型成为近年来统计语言模型研究的一个热点。 本文对统计语言模型的重要技术和发展脉络进行了整理和分析,并在此基础上设计并实现了一套海量语言模型训练工具和一组海量语言模型调用接口,并把在Google Web1T语料库上训练得到的海量语言模型应用到机器翻译中。 首先,我们设计并实现了可用于Google Web1T语料库的海量语言模型训练工具。通过采用紧凑合理的数据结构、更简单的平滑算法、概率离散化等方法来优化空间代价,提高性能,使其可以真正在统计机器翻译系统中使用。通过此训练工具,我们可以完成语言建模任务,生成语言模型文件。 接下来,我们设计并开发了供机器翻译等自然语言应用调用海量语言模型的接口。通过这些接口,其他自然语言应用可以访问已经生成的语言模型,获取词串的概率。针对不同的需求,提供有以下三种语言模型调用方式:通过动态链接库直接调用;通过与语言模型服务器通信来调用;通过与分布式语言模型服务器通信来调用。动态链接库的调用方式效率最高;语言模型服务器对客户端的要求较少,方便了客户端的开发;分布式语言模型服务器通过并行技术来提高I/O带宽,在提高性能的同时降低了对服务器的内存要求。 最后,我们在机器翻译系统中使用上述接口来访问基于Google Web1T的海量语言模型。在NIST2008机器翻译评测测试语料上,机器翻译系统的BLEU得分,从20.54提高到21.96,提高约7%。初步体现了海量语言模型对机器翻译的帮助。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号