首页> 中文学位 >中文分词技术在信息检索系统中的应用研究
【6h】

中文分词技术在信息检索系统中的应用研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1研究意义

1.2信息检索简介

1.3中文搜索引擎

1.4论文的组织结构

第二章 中文自动分词技术及其发展情况

2.1中文自动分词简介

2.2中文自动分词的现状

2.3目前常用的分词算法及比较

2.4中分分词中存在的主要问题

2.5分词对中文信息检索的影响

第三章 基于词典匹配和统计方法相结合的中文分词算法的实现

3.1统计的分词方法

3.2常用词典存储结构介绍

3.3双数组Trie树(Double-Array Trie)优化算法

第四章 算法对歧义切分和未登录词识别的处理

4.1歧义切分问题

4.2未登录词识别

4.3本章总结及相应实验结果

第五章 实验结果分析及结论

5.1分词性能测试

第六章全文工作总结及展望

6.1本文的主要工作

6.2未来工作展望

参考文献

致谢

攻读学位期间发表的学术论文

展开▼

摘要

随着信息化时代的不断进步和发展,人们获取信息的手段也在不断的发生着变化,从原始的手工查找到现在的计算机搜索引擎。计算机技术的发展极大的促进了信息检索技术的进步,搜索引擎作为信息检索的主要手段,其发展受到越来越多研究机构和个人的重视。搜索引擎作为检索工具,其发展给我们的生活带来了前所未有的方便和快捷。当人类利用google、baidu等搜索引擎进行信息的查询和检索时,它们是如何知道我们最想要的结果是什么,有多少结果是我们需要的?
  汉语言的博大精深使它不能像英语那样容易让人理解。当利用计算机处理汉语言时,输入计算机的仅仅是一连串的字符序列,除了标点符号就没有其他的分割标志,而英语却有一个明显的分割标志—空格,这使汉语分词遇到了一些在英语中没有的问题,这些问题都集中体现在中文分词技术中,其中以歧义词的切分和未登录词的识别为代表。
  本文前面主要从理论上分析和介绍了目前的各种汉语自动分词方法,以及搜索引擎技术的相关情况。对各种分词方法的技术特点进行了阐述,对自动分词发展现状和趋势作了概括性的总结。讨论了中文分词中存在的两个主要问题—歧义词的切分和未登录词的识别,简单介绍了中文分词和信息检索的关系。
  目前的分词算法主要有基于词典和无词典两大类,这两种算法各有优缺点。本文的分词系统是基于词典的,词典作为整个分词系统的核心,它的好坏直接影响到分词系统的效率和准确率,所以要从时间和空间多个方面考虑分词词典的组织结构。本文的主要工作如下:
  1、简要的介绍了文章的研究背景和意义以及中文搜索引擎的相关情况,深入的研究了目前国内中文自动分词发展情况和中文自动分词面临的问题。
  2、介绍了目前常用的几种词典算法结构,根据已有的词典算法并结合前人的研究工作,对基于双数组Trie树词典算法进行了改进,利用Lucene全文索引擎工具包的切分工具对原始语料进行初切分,并结合统计方法在切分过程中对歧义切分和未登录词识别进行了相应的处理,最后实现本文的分词系统CSSD。
  3、把改进后的词典算法和目前现有的几种词典算法从空间利用率和查找速度进行了比较,并把本文的CSSD分词系统和中科院ICTCLAS分词系统以及前向最大匹配算法FMM从切分速度、切分准确率和未登录词识别三个方面进行了比较,结果显示,CSSD分词系统能够满足面向大规模信息检索的要求。最后,对全文的工作进行了总结,并提出进一步的研究工作。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号