首页> 中文学位 >基于Lucene搜索引擎的中文全文信息检索技术的研究
【6h】

基于Lucene搜索引擎的中文全文信息检索技术的研究

代理获取

目录

文摘

英文文摘

声明

第一章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 中文分词算法研究现状

1.2.2 信息检索研究现状

1.3 论文的主要工作及组织结构

1.3.1 论文的工作

1.3.2 论文的组织结构

第二章 中文全文信息检索关键技术

2.1 信息检索概述

2.2 中文全文信息搜索引擎

2.3 Lucene搜索引擎

2.4 中文分词算法概述

2.5 文档相关度排序算法概述

2.6 本章小结

第三章 中文分词算法

3.1 中文分词算法的研究现状

3.1.1 歧义识别

3.1.2 新词识别

3.2 中文分词经典算法的分析和比较

3.2.1 基于字符串匹配的分词方法

3.2.2 基于理解的分词方法

3.2.3 基于统计的分词方法

3.2.4 基于语义的分词方法

3.3 中文分词算法的比较

3.3.1 基于字符串匹配的分词方法的优缺点

3.3.2 基于理解的分词方法的优缺点

3.3.3 基于统计的分词方法的优缺点

3.3.4 基于语义的分词方法的优缺点

3.3.5 四种中文分词方法优缺点的比较总结

3.4 本章小结

第四章 文档相关度排序算法

4.1 文档相关度评分机制

4.2 文档相关度排序算法的改进

4.3 本章小结

第五章 基于Lucene的中文全文信息检索系统的设计与实现

5.1 系统总体设计

5.1.1 总体设计思想

5.1.2 总体结构设计

5.2 系统环境及主要技术

5.2.1 运行环境

5.2.2 Ajax异步通信技术

5.2.3 Struts框架

5.3 系统功能模块详细设计

5.3.1 建立多种索引模块的设计

5.3.2 搜索界面模块的设计

5.3.3 高级搜索模块的设计

5.3.4 中文分词模块的设计

5.4 系统优化和算法改进

5.4.1 索引预处理

5.4.2 关键词提示的操作优化

5.4.3 引入停止词分词算法

5.4.4 正向最大匹配算法的改进

5.4.5 逆向最大匹配算法的改进

5.5 应用与结果分析

5.5.1 改进前后文档相关度排序算法的分析比较

5.5.2 三种索引的分析比较

5.5.3 四种分词方法的分析比较

5.6 本章小结

第六章 总结与展望

6.1 总结

6.2 展望

附录 攻读学位期间发表的学术论文

参考文献

后记

展开▼

摘要

随着网络信息资源的急剧增长,人们对于如何快速有效地从海量的网络信息中,抽取出对其有价值的、潜在的信息,使之能有效地被应用在管理和决策中给予了越来越多的关注。信息检索技术帮助用户从海量的信息中提取出他们所需要的有用信息,节省了用户的时间,提高了用户的工作效率。信息检索中的中文检索与西文检索在实现的机制和原理上基本一致,但由于汉语本身的特点,必须引入对于中文语言的处理技术,而中文分词技术就是其中很关键的部分。
   论文首先阐述了与中文全文信息检索相关的关键技术,包括:信息检索的概念、中文分词算法的概念、文档相关度排序算法的概念。论文系统地比较分析了四种主要的中文分词算法:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于语义的分词方法,总结了它们各自的优缺点及其在中文分词各个评价因素上的优劣特性。论文在Lucene原有文档相关度排序算法的基础上,采用了基于用户行为的二次检索Pagerank以及主页加分方式,改进了原有的排序算法。
   论文的主要工作是基于Lucene搜索引擎,设计并实现了一个中文全文信息检索原型系统。提出了对于算法和系统的各种改进,即索引预处理、关键词提示的操作优化、引入停止词分词算法、正向最大匹配算法的改进、逆向最大匹配算法的改进。通过实验,将改进后的词典分词方法与Lucene的自动切分方法:一元分词法和二元分词法进行比较后,验证了基于本文提出的改进的词典分词方法的优势。论文采用了基于用户行为的二次检索,Pagerank以及主页加分方式,改进后的文档相关度排序算法利用了用户对文档的主观评价,显著地提高了搜索系统的准确度。
   最后,论文对基于Lucene搜索引擎的中文全文信息检索系统的实现方法进行了总结,并对未来进一步的研究工作进行了展望。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号