N-gram技术在中文词法分析中的应用研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着计算机技术和互联网的迅猛发展，网络在线的文档成为现代主要的信息载体，是人们生活中不可或缺的主要信息来源。而随着互联网进入Web2.0时代，人们从被动的接受门户网站发布信息，转变为主动的获取、发布、共享、传播信息。近年来，对Web页面的机器处理成为一个研究热点，自然语言文本是Web页面的主要内容，对自然语言文本进行机器处理技术的基础是词法分析，也是中文信息处理的“瓶颈”之一，其性能将直接影响句法分析及其后续的应用系统的性能。本文研究的汉语词法分析主要是中文分词这个方面的内容。词法分析作为基础处理步骤，先期的错误会沿处理链条扩散，并最终影响信息检索、问答系统、机器翻译等方面向最终用户的应用系统的质量。影响词法分析性能提高的主要因素包括歧义问题、数据稀疏问题以及独立同分布条件。介于上述背景，本文利用统计方法致力于改善词法分析的性能。从模型角度来看，本文在有监督法上主要探讨了N-gram模型以及该模型在中文分词和新词识别上的应用，并利用以上研究成果对N-gram技术在中文信息处理中的应用进行了深入研究。本文主要内容包括以下几个方面： (1)首先，对目前中文信息处理的现状以及N-gram模型在中文信息处理中的应用现状进行了阐述，N-Gram是大词汇连续语音识别中常用的一种语言模型，对中文而言，我们称之为汉语语言模型(CLM，ChineseLanguageModel)。中文信息处理有基于汉语理解和基于统计两种方法，本文主要以基于统计的方法为主要研究对象。 (2)第二，中文信息处理的基础技术为词法分析，这里对词法分析的研究现状进行了简单阐述，指出词法分析目前的困难，列举多种统计语言模型，本文主要就N-gram模型及其计算公式进行了细致全面的分析，并介绍了解决零概论问题的平滑算法等。 (3)第三，研究了面向web文本的中文分词问题。本文简述了中文分词的国内外研究现状，指出中文分词的主要技术难点。本文在词法分析以及中文分词上分别进行了说明，介绍了N-gram中文分词模型。根据web文本环境的特点，研究了中文的新词识别问题。提出了基于N-gram的新词识别过程，并进行了评测，结果表明N-gram技术在中文新词识别上是可行的。另外，在语言特征方面，阐述了基于N-gram语言特征模版的文本特征表示方式，证实了采用高阶语言特征模板更为有效。

著录项

作者
秦健;
展开▼
作者单位

中国海洋大学;

展开▼
授予单位中国海洋大学;
学科软件工程
授予学位硕士
导师姓名王庆江,董晶;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
N-gram技术; 中文词法分析; 信息处理;

相似文献

中文文献
外文文献
专利

1. 聚类集成技术在中文人名消歧中的应用研究 [J] . 陈君涛 ,展金梅 . 信息系统工程 . 2020,第004期
2. 信息技术在高职中文教学中的应用研究 [J] . 王初 . 黑龙江科学 . 2018,第004期
3. 中文分词技术在智能评分系统中的应用研究 [J] . 张微微 . 消费电子 . 2014,第002期
4. 中文分词技术在交通管理系统中的应用研究 [J] . 李娜 . 科技资讯 . 2010,第007期
5. 计算机中文分词技术及其在数字化侦查中的应用研究 [J] . 黄云峰 . 福建警察学院学报 . 2008,第004期
6. 平仄信息对中文词法分析的影响 [C] . 孟凡东 ,徐金安 ,姜文斌 . 第七届全国机器翻译研讨会 . 2011
7. 中文词法分析技术的研究与实现 [A] . 张会鹏 . 2006

N-gram技术在中文词法分析中的应用研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅