首页> 中文学位 >维吾尔语统计语言模型中建模基元的研究
【6h】

维吾尔语统计语言模型中建模基元的研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪 论

1.1 研究背景

1.2 选题意义

1.3 语言模型研究现状

1.4 维吾尔语语言模型中的关键技术分析

1.5 本文的研究工作

第二章 维吾尔语的语音学与形态学概述

2.1 维吾尔语简介

2.2 维吾尔语的语音结构

2.3 维吾尔语形态分析

2.4 本章小结

第三章 统计语言模型及算法分析与研究

3.1 统计语言模型综述

3.2 基于N元语法的统计语言模型

3.3 平滑算法

3.4 本章小结

第四章 维吾尔语语言模型改进分析

4.1 传统的基于词的语言模型

4.2 改进的不同模型粒度的语言模型

4.3 本章小结

第五章 语料处理及实验分析

5.1 语料库收集

5.2 语料加工

5.3 n 元词串抽取

5.4 分词

5.5 统计语言模型构建

5.6 不同语言模型的相关实验

5.5 本章小结

第六章 总结与展望

6.1 总结

6.2 下一步工作与展望

致谢

参考文献

展开▼

摘要

语言模型是描述自然语言内在规律的数学模型,在自然语言处理过程中占据着重要的地位,但目前维吾尔语语言模型的研究尚处于起步探索阶段,因此构建一个可靠的语言模型对于维吾尔语自然语言处理系统很关键。维吾尔语语言模型是维吾尔语自然语言处理技术的重要基石,它可以应用于语音识别、机器翻译、信息检索等领域,它的研究对促进新疆地区的少数民族语言自然语言处理技术的发展具有重要的意义。
  本文针对当前维吾尔语语言模型存在的语料库资源匮乏问题、数据稀疏问题以及困惑度较高等问题,试图找出使困惑度最低的平滑算法和建模单元(基元)建立语言模型。具体研究工作如下所示:
  为解决数据稀疏问题,研究了多种平滑算法,包括加法平滑算法、Good-Turing平滑、Witten-Bell平滑、Katz平滑、绝对折扣平滑、Kneser-Ney平滑。实验结果表明绝对折扣平滑算法的困惑度最低。
  本文将基于电话信道的维吾尔口语对话的文本、双语教学系统中的课本教材以及一些日常用语作为实验数据,然后对这些实验数据进行预处理和加工处理,并将处理后的数据作为本实验中建立维吾尔语语言模型的文本语料。预处理后对维吾尔语文本语料进行分词,这里采用两种分词方法:一种是基于词典的维吾尔语词切分,一种是非监督式形态切分。
  在基于维吾尔语分词的基础上,对传统的N-gram统计语言模型做出改进。将维吾尔语单词切分成不同单元,以它们作为基元(模型粒度)建立了3种维吾尔语语言模型,并提出基于词素类的N-gram语言模型。本文利用SRILM1.5.12工具包和MITLM0.4工具包进行实验。结果表明,基于词素的维吾尔语语言模型的困惑度远低于基于词的维吾尔语语言模型的困惑度,前者比后者降低了约2/3。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号