维吾尔语统计语言模型中建模基元的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

语言模型是描述自然语言内在规律的数学模型，在自然语言处理过程中占据着重要的地位，但目前维吾尔语语言模型的研究尚处于起步探索阶段，因此构建一个可靠的语言模型对于维吾尔语自然语言处理系统很关键。维吾尔语语言模型是维吾尔语自然语言处理技术的重要基石，它可以应用于语音识别、机器翻译、信息检索等领域，它的研究对促进新疆地区的少数民族语言自然语言处理技术的发展具有重要的意义。
　　本文针对当前维吾尔语语言模型存在的语料库资源匮乏问题、数据稀疏问题以及困惑度较高等问题，试图找出使困惑度最低的平滑算法和建模单元（基元）建立语言模型。具体研究工作如下所示：
　　为解决数据稀疏问题，研究了多种平滑算法，包括加法平滑算法、Good-Turing平滑、Witten-Bell平滑、Katz平滑、绝对折扣平滑、Kneser-Ney平滑。实验结果表明绝对折扣平滑算法的困惑度最低。
　　本文将基于电话信道的维吾尔口语对话的文本、双语教学系统中的课本教材以及一些日常用语作为实验数据，然后对这些实验数据进行预处理和加工处理，并将处理后的数据作为本实验中建立维吾尔语语言模型的文本语料。预处理后对维吾尔语文本语料进行分词，这里采用两种分词方法：一种是基于词典的维吾尔语词切分，一种是非监督式形态切分。
　　在基于维吾尔语分词的基础上，对传统的N-gram统计语言模型做出改进。将维吾尔语单词切分成不同单元，以它们作为基元（模型粒度）建立了3种维吾尔语语言模型，并提出基于词素类的N-gram语言模型。本文利用SRILM1.5.12工具包和MITLM0.4工具包进行实验。结果表明，基于词素的维吾尔语语言模型的困惑度远低于基于词的维吾尔语语言模型的困惑度，前者比后者降低了约2/3。

著录项

作者
唐亮;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科软件工程
授予学位硕士
导师姓名王庆先;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
语言模型; 数据稀疏; 平滑算法; 词语切分; 非监督式形态切分;

相似文献

中文文献
外文文献
专利

1. 维吾尔语音节语音识别与识别基元的研究 [J] . 王昆仑 . 计算机科学 . 2003,第007期
2. 基元库构建模型及其应用研究 [J] . 余志伟 ,李兴森 . 广东工业大学学报 . 2015,第003期
3. 数字化工务工程基元模型库建模方法研究 [J] . 聂良涛 ,易思蓉 ,李阳 . 铁道建筑 . 2014,第002期
4. 语音识别中的统计语言模型研究 [J] . 惠益龙 ,张太红 ,吕莲花 . 信息技术 . 2017,第001期
5. 空间直线基元在双目立体视觉系统中重建方法的研究 [J] . 葛动元 ,姚锡凡 ,向文江 . 机床与液压 . 2018,第005期
6. 基于声韵母建模基元拼接和整词识别的非特定人孤立词语音识别系统的研究 [C] . 李峰 ,浦剑涛 ,李成荣 . 第七届全国人机语音通讯学术会议 . 2003
7. 基于认知模式的CGA基元拓扑关系建模的模式识别方法研究 [A] . 秦银雪 . 2013

维吾尔语统计语言模型中建模基元的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅