首页> 中文学位 >N-gram技术在中文词法分析中的应用研究
【6h】

N-gram技术在中文词法分析中的应用研究

代理获取

目录

文摘

英文文摘

声明

0引言

0.1中文信息处理的研究现状

0.2 N-gram模型及其在中文信息处理中的应用现状

0.3论文研究内容

0.4论文章节安排

1中文信息处理

1.1中文信息处理的分类

1.2中文信息处理的基本方法

1.3中文信息处理的发展状况

2 N-gram模型及其在词法分析中的应用

2.1词法分析

2.1.1国内外相关研究

2.1.2中文词法分析的特点及其困难

2.1.3强化学习方法

2.2简述N-gram模型

2.3 N-gram模型的关键问题

3词法分析中的中文分词

3.1研究现状

3.1.1国内研究现状

3.1.2国际研究现状

3.2 N-gram中文分词模型

3.3中文分词中亟需解决的问题

3.4中文分词的性能评价指标

3.5分词系统的实验评测

3.5.1基于词语级别的N-gram模型切分评测

3.6基于N-gram模板的语言特征表示

4基于N-gram的新词识别

4.1单词序列的概率模型

4.2 N-gram算法识别新词的设计思路

4.2.1语料库的准备

4.2.2 N-gram模型与字出现概率的计算

4.3新词识别实验

5结束语

5.1总结本文工作

5.2下一步工作展望

参考文献

附录

致谢

个人简历、在学期间发表的学术论文与研究成果

展开▼

摘要

随着计算机技术和互联网的迅猛发展,网络在线的文档成为现代主要的信息载体,是人们生活中不可或缺的主要信息来源。而随着互联网进入Web2.0时代,人们从被动的接受门户网站发布信息,转变为主动的获取、发布、共享、传播信息。近年来,对Web页面的机器处理成为一个研究热点,自然语言文本是Web页面的主要内容,对自然语言文本进行机器处理技术的基础是词法分析,也是中文信息处理的“瓶颈”之一,其性能将直接影响句法分析及其后续的应用系统的性能。本文研究的汉语词法分析主要是中文分词这个方面的内容。词法分析作为基础处理步骤,先期的错误会沿处理链条扩散,并最终影响信息检索、问答系统、机器翻译等方面向最终用户的应用系统的质量。 影响词法分析性能提高的主要因素包括歧义问题、数据稀疏问题以及独立同分布条件。介于上述背景,本文利用统计方法致力于改善词法分析的性能。从模型角度来看,本文在有监督法上主要探讨了N-gram模型以及该模型在中文分词和新词识别上的应用,并利用以上研究成果对N-gram技术在中文信息处理中的应用进行了深入研究。本文主要内容包括以下几个方面: (1)首先,对目前中文信息处理的现状以及N-gram模型在中文信息处理中的应用现状进行了阐述,N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM,ChineseLanguageModel)。中文信息处理有基于汉语理解和基于统计两种方法,本文主要以基于统计的方法为主要研究对象。 (2)第二,中文信息处理的基础技术为词法分析,这里对词法分析的研究现状进行了简单阐述,指出词法分析目前的困难,列举多种统计语言模型,本文主要就N-gram模型及其计算公式进行了细致全面的分析,并介绍了解决零概论问题的平滑算法等。 (3)第三,研究了面向web文本的中文分词问题。本文简述了中文分词的国内外研究现状,指出中文分词的主要技术难点。本文在词法分析以及中文分词上分别进行了说明,介绍了N-gram中文分词模型。根据web文本环境的特点,研究了中文的新词识别问题。提出了基于N-gram的新词识别过程,并进行了评测,结果表明N-gram技术在中文新词识别上是可行的。另外,在语言特征方面,阐述了基于N-gram语言特征模版的文本特征表示方式,证实了采用高阶语言特征模板更为有效。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号