海量语言模型的研究及其在机器翻译中的应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来，随着自然语言处理技术的发展和大规模语料库的出现，各类自然语言应用中使用的语言模型规模也越来越大。机器翻译是大规模语言模型的主要应用领域之一，语言模型有助于机器翻译时选择更符合目标语言习惯的翻译项，研究结果表明，语言模型训练语料的增大可以稳定地提高翻译的效果。故海量语言模型成为近年来统计语言模型研究的一个热点。本文对统计语言模型的重要技术和发展脉络进行了整理和分析，并在此基础上设计并实现了一套海量语言模型训练工具和一组海量语言模型调用接口，并把在Google Web1T语料库上训练得到的海量语言模型应用到机器翻译中。首先，我们设计并实现了可用于Google Web1T语料库的海量语言模型训练工具。通过采用紧凑合理的数据结构、更简单的平滑算法、概率离散化等方法来优化空间代价，提高性能，使其可以真正在统计机器翻译系统中使用。通过此训练工具，我们可以完成语言建模任务，生成语言模型文件。接下来，我们设计并开发了供机器翻译等自然语言应用调用海量语言模型的接口。通过这些接口，其他自然语言应用可以访问已经生成的语言模型，获取词串的概率。针对不同的需求，提供有以下三种语言模型调用方式：通过动态链接库直接调用；通过与语言模型服务器通信来调用；通过与分布式语言模型服务器通信来调用。动态链接库的调用方式效率最高；语言模型服务器对客户端的要求较少，方便了客户端的开发；分布式语言模型服务器通过并行技术来提高I/O带宽，在提高性能的同时降低了对服务器的内存要求。最后，我们在机器翻译系统中使用上述接口来访问基于Google Web1T的海量语言模型。在NIST2008机器翻译评测测试语料上，机器翻译系统的BLEU得分，从20.54提高到21.96，提高约7％。初步体现了海量语言模型对机器翻译的帮助。

著录项

作者
张润延;
展开▼
作者单位

厦门大学;

展开▼
授予单位厦门大学;
学科计算机应用技术
授予学位硕士
导师姓名史晓东;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类机器翻译;
关键词
统计语言模型; 海量语料库; 机器翻译; Google Web1T语料库; 平滑算法;

相似文献

中文文献
外文文献
专利

1. 神经网络语言模型在统计机器翻译中的应用 [J] . 张家俊 ,宗成庆 . 情报工程 . 2017,第003期
2. 神经网络语言模型在统计机器翻译中的应用 [J] . 张家俊1 ,宗成庆12 . 情报工程 . 2017,第003期
3. 泛化语言模型在汉维机器翻译中的应用 [J] . 李响 ,南江 ,杨雅婷 . 计算机应用研究 . 2014,第010期
4. 人工智能在机器翻译中的应用研究 [J] . 郭明阳 ,张晓玲 ,唐会玲 . 河南科技大学学报（自然科学版） . 2021,第003期
5. EM算法在神经机器翻译模型中的应用研究 [J] . 杨云 ,王全 . 计算机应用与软件 . 2020,第008期
6. 统计机器翻译中多种语言模型的融合 [C] . 奚宁 ,赵迎功 ,汤光超 . 第七届全国机器翻译研讨会 . 2011
7. 面向大规模数据的统计机器翻译语言模型研究 [A] . 李琼 . 2016

海量语言模型的研究及其在机器翻译中的应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅