文摘
英文文摘
声明
第一章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 中文分词算法研究现状
1.2.2 信息检索研究现状
1.3 论文的主要工作及组织结构
1.3.1 论文的工作
1.3.2 论文的组织结构
第二章 中文全文信息检索关键技术
2.1 信息检索概述
2.2 中文全文信息搜索引擎
2.3 Lucene搜索引擎
2.4 中文分词算法概述
2.5 文档相关度排序算法概述
2.6 本章小结
第三章 中文分词算法
3.1 中文分词算法的研究现状
3.1.1 歧义识别
3.1.2 新词识别
3.2 中文分词经典算法的分析和比较
3.2.1 基于字符串匹配的分词方法
3.2.2 基于理解的分词方法
3.2.3 基于统计的分词方法
3.2.4 基于语义的分词方法
3.3 中文分词算法的比较
3.3.1 基于字符串匹配的分词方法的优缺点
3.3.2 基于理解的分词方法的优缺点
3.3.3 基于统计的分词方法的优缺点
3.3.4 基于语义的分词方法的优缺点
3.3.5 四种中文分词方法优缺点的比较总结
3.4 本章小结
第四章 文档相关度排序算法
4.1 文档相关度评分机制
4.2 文档相关度排序算法的改进
4.3 本章小结
第五章 基于Lucene的中文全文信息检索系统的设计与实现
5.1 系统总体设计
5.1.1 总体设计思想
5.1.2 总体结构设计
5.2 系统环境及主要技术
5.2.1 运行环境
5.2.2 Ajax异步通信技术
5.2.3 Struts框架
5.3 系统功能模块详细设计
5.3.1 建立多种索引模块的设计
5.3.2 搜索界面模块的设计
5.3.3 高级搜索模块的设计
5.3.4 中文分词模块的设计
5.4 系统优化和算法改进
5.4.1 索引预处理
5.4.2 关键词提示的操作优化
5.4.3 引入停止词分词算法
5.4.4 正向最大匹配算法的改进
5.4.5 逆向最大匹配算法的改进
5.5 应用与结果分析
5.5.1 改进前后文档相关度排序算法的分析比较
5.5.2 三种索引的分析比较
5.5.3 四种分词方法的分析比较
5.6 本章小结
第六章 总结与展望
6.1 总结
6.2 展望
附录 攻读学位期间发表的学术论文
参考文献
后记