基于n-gram模型的中文分词技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的广泛应用，语料库知识的不断扩大，人们希望能从这些语料中进一步挖掘出更多有用的信息，其方法通常是建立一个面向各自应用领域的语言模型。与传统的基于规则的确定性语言模型不同，统计语言模型(SLM)建立在概率统计和信息论的基础上，通过对大量语料进行统计以揭示出语言内部特有的规律<'[2]>。分析统计语言模型的性能以及如何将它应用于各种应用系统是当今自然语占处理领域的热点之一。最早应用于语音识别系统的n-gram统计语言模型，已经广泛地出现在多种自然语言处理系统中。然而，这些系统处理中文信息时，都会面临一个常见的分词问题。传统的做法是在现有词典的基础上，定义一个确定性语言模型(DLM)，依据各种语法规则实现机械分词。这种方法往往受到词典的规模、应用领域的限制以及切分规则过多等问题，而随着人们对开放式系统的要求越来越高，基于规则系统的局限性问题显得十分突出。基于这种思路，本文旨在将分词问题纳入到统计语言模型的研究领域，分析语言模型的性能和分词效果之间的关系，寻找提高分词效果、优化语言模型的各种策略以及扩展语言模型规模的途径。本文主要讨论了n-gram统计语言模型的相关知识及构建方法；在基于互信息的边界探测算法(Boundary Detection)<'[1]>的基础上，提出了基于n-gram模型的n-boundar)，分词算法，并分析了两个算法的特点；然后利用EM的思想，通过这种算法训练更多的生语料以达到扩展模型规模和提高模型性能的目的；最后通过几组实验数据比较，验证了这种分词算法以及使用这种算法训练语料的可行性。得到了语言模型复杂度(Perplexitv)可以从训练前的126.368降低到训练后的56.716，信息熵(Entropy)为5.826比特/字符的时候，分词效果综合评价参数F-Meastlre达到0.780的结果。

著录项

作者
赵琦;
展开▼
作者单位

南开大学;

展开▼
授予单位南开大学;
学科计算机软件与理论
授予学位硕士
导师姓名周玉龙;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
语料库; 统计语言模型; 中文分词; 信息论; 自然语言处理系统; 边界探测算法;

相似文献

中文文献
外文文献
专利

1. 基于N-gram模型的中文分词算法的研究 [J] . 丁洁 ,赵景惠 . 福建电脑 . 2017,第005期
2. 基于N-gram模型的中文分词前k优算法 [J] . 李书豪 ,陈宇 ,吕淑宝 . 智能计算机与应用 . 2016,第006期
3. 基于N-gram模型的中文分词前k优算法 [J] . 李书豪 ,陈宇 ,吕淑宝 . 智能计算机与应用 . 2016,第006期
4. 基于N-gram模型的哈萨克语语音识别及处理技术研究 [J] . 孙晓杰 . 信息记录材料 . 2018,第009期
5. 藏语N-gram语言模型中的平滑技术研究 [J] . 仁青吉 . 西北民族大学学报（自然科学版） . 2019,第004期
6. 基于短语的汉语N-gram语言模型研究 [C] . 刘秉权 ,王晓龙 ,王轩 . 863计划智能计算机主题学术会议 . 2001
7. 基于N-gram模型和句法模型的连续中国手语识别方法研究 [A] . 田建勋 . 2011

基于n-gram模型的中文分词技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅