中文分词技术在信息检索系统中的应用研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着信息化时代的不断进步和发展,人们获取信息的手段也在不断的发生着变化,从原始的手工查找到现在的计算机搜索引擎。计算机技术的发展极大的促进了信息检索技术的进步,搜索引擎作为信息检索的主要手段,其发展受到越来越多研究机构和个人的重视。搜索引擎作为检索工具,其发展给我们的生活带来了前所未有的方便和快捷。当人类利用google、baidu等搜索引擎进行信息的查询和检索时,它们是如何知道我们最想要的结果是什么,有多少结果是我们需要的?
　　汉语言的博大精深使它不能像英语那样容易让人理解。当利用计算机处理汉语言时,输入计算机的仅仅是一连串的字符序列,除了标点符号就没有其他的分割标志,而英语却有一个明显的分割标志—空格,这使汉语分词遇到了一些在英语中没有的问题,这些问题都集中体现在中文分词技术中,其中以歧义词的切分和未登录词的识别为代表。
　　本文前面主要从理论上分析和介绍了目前的各种汉语自动分词方法,以及搜索引擎技术的相关情况。对各种分词方法的技术特点进行了阐述,对自动分词发展现状和趋势作了概括性的总结。讨论了中文分词中存在的两个主要问题—歧义词的切分和未登录词的识别,简单介绍了中文分词和信息检索的关系。
　　目前的分词算法主要有基于词典和无词典两大类,这两种算法各有优缺点。本文的分词系统是基于词典的,词典作为整个分词系统的核心,它的好坏直接影响到分词系统的效率和准确率,所以要从时间和空间多个方面考虑分词词典的组织结构。本文的主要工作如下:
　　1、简要的介绍了文章的研究背景和意义以及中文搜索引擎的相关情况,深入的研究了目前国内中文自动分词发展情况和中文自动分词面临的问题。
　　2、介绍了目前常用的几种词典算法结构,根据已有的词典算法并结合前人的研究工作,对基于双数组Trie树词典算法进行了改进,利用Lucene全文索引擎工具包的切分工具对原始语料进行初切分,并结合统计方法在切分过程中对歧义切分和未登录词识别进行了相应的处理,最后实现本文的分词系统CSSD。
　　3、把改进后的词典算法和目前现有的几种词典算法从空间利用率和查找速度进行了比较,并把本文的CSSD分词系统和中科院ICTCLAS分词系统以及前向最大匹配算法FMM从切分速度、切分准确率和未登录词识别三个方面进行了比较,结果显示,CSSD分词系统能够满足面向大规模信息检索的要求。最后,对全文的工作进行了总结,并提出进一步的研究工作。

著录项

作者
戈明东;
展开▼
作者单位

安徽大学;

展开▼
授予单位安徽大学;
学科计算机应用技术
授予学位硕士
导师姓名李炜;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.09;TP391.12;
关键词
中文分词; 信息检索系统; 搜索引擎; 汉语自动分词; 歧义词切分; 词典算法;

相似文献

中文文献
外文文献
专利

1. 中文分词对中文信息检索系统性能的影响 [J] . 曹桂宏 ,何丕廉 ,吴光远 . 计算机工程与应用 . 2003,第019期
2. 中文分词技术在智能评分系统中的应用研究 [J] . 张微微 . 消费电子 . 2014,第002期
3. 中文分词技术在交通管理系统中的应用研究 [J] . 李娜 . 科技资讯 . 2010,第007期
4. 计算机中文分词技术及其在数字化侦查中的应用研究 [J] . 黄云峰 . 福建警察学院学报 . 2008,第004期
5. 中文分词技术及JE中文分词器在Nutch中的运用与实现 [J] . 陶荣 . 广西教育C（职业与高等教育版） . 2013,第002期
6. 本体论方法在文献型信息检索系统中的应用研究 [C] . 王兰成 ,曾琼 ,陈雪强 . 第二十届全国计算机信息管理学术研讨会 . 2006
7. 语义Web技术在信息检索系统中的应用研究 [A] . 刘景亮 . 2010

中文分词技术在信息检索系统中的应用研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅