基于Lucene搜索引擎的中文全文信息检索技术的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着网络信息资源的急剧增长，人们对于如何快速有效地从海量的网络信息中，抽取出对其有价值的、潜在的信息，使之能有效地被应用在管理和决策中给予了越来越多的关注。信息检索技术帮助用户从海量的信息中提取出他们所需要的有用信息，节省了用户的时间，提高了用户的工作效率。信息检索中的中文检索与西文检索在实现的机制和原理上基本一致，但由于汉语本身的特点，必须引入对于中文语言的处理技术，而中文分词技术就是其中很关键的部分。
　　论文首先阐述了与中文全文信息检索相关的关键技术，包括：信息检索的概念、中文分词算法的概念、文档相关度排序算法的概念。论文系统地比较分析了四种主要的中文分词算法：基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于语义的分词方法，总结了它们各自的优缺点及其在中文分词各个评价因素上的优劣特性。论文在Lucene原有文档相关度排序算法的基础上，采用了基于用户行为的二次检索Pagerank以及主页加分方式，改进了原有的排序算法。
　　论文的主要工作是基于Lucene搜索引擎，设计并实现了一个中文全文信息检索原型系统。提出了对于算法和系统的各种改进，即索引预处理、关键词提示的操作优化、引入停止词分词算法、正向最大匹配算法的改进、逆向最大匹配算法的改进。通过实验，将改进后的词典分词方法与Lucene的自动切分方法：一元分词法和二元分词法进行比较后，验证了基于本文提出的改进的词典分词方法的优势。论文采用了基于用户行为的二次检索，Pagerank以及主页加分方式，改进后的文档相关度排序算法利用了用户对文档的主观评价，显著地提高了搜索系统的准确度。
　　最后，论文对基于Lucene搜索引擎的中文全文信息检索系统的实现方法进行了总结，并对未来进一步的研究工作进行了展望。

著录项

作者
励子闰;
展开▼
作者单位

华东师范大学;

展开▼
授予单位华东师范大学;
学科计算机应用技术
授予学位硕士
导师姓名余青松;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
搜索引擎; 中文分词; 全文信息检索; 文档相关度; 排序算法;

相似文献

中文文献
外文文献
专利

1. 基于Lucene的中文分词全文搜索引擎设计与实现 [J] . 李炳练 . 电脑知识与技术 . 2015,第013期
2. 基于Lucene的全文搜索引擎的研究与实现 [J] . 任晓娜 . 湖北广播电视大学学报 . 2010,第005期
3. 基于Lucene的全文搜索引擎研究与应用 [J] . 周锦程 ,王丹 . 黔南民族师范学院学报 . 2009,第003期
4. 基于IKAnalyzer和Lucene的地理编码中文搜索引擎的研究与实现 [J] . 柴洁 . 城市勘测 . 2014,第006期
5. 基于Lucene的中文全文检索系统的研究与设计 [J] . 索红光 ,孙鑫 . 计算机工程与设计 . 2008,第019期
6. 一种基于DotLucene搜索引擎的知识库中文全文检索系统 [C] . 赵慧 ,李春明 ,鲍可进 . 第二十二届中国数据库学术会议 . 2005
7. 搜索引擎关键技术研究及性能优化—基于Lucene的全文检索技术的研究与应用 [A] . 赵旭 . 2008

基于Lucene搜索引擎的中文全文信息检索技术的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅