文摘
英文文摘
声明
第一章绪论
1.1课题背景和意义
1.2主要工作和贡献
1.3本论文的组织
第二章中文分词算法
2.1中文分词的研究进展
2.1.1主要的几种分词方法
2.1.2基于Hash的机械分词
2.2常用的三种分词词典
2.2.1整词二分的分词词典机制
2.2.2 TRIE索引树的分词词典机制
2.2.3基于逐字二分的词典机制
2.2.4三种分词词机制的实验结果
2.3多级Hash的词典机制
2.4本章小结
第三章基于Lucene的分词技术研究
3.1 Lucene概述
3.1.1全文检索
3.1.2 Lucene的特点
3.1.3 Lucene的结构
3.1.4 Lucene的工作流程
3.1.5 Lucene的与索引相关的类
3.1.6 Lucene的与查询相关的类
3.2 Lucene的分析器
3.2.1 Lucene分析器的结构
3.2.2 Lucene的分析器
3.2.3 Lucene的查询
3.3 Lucene的分析器的研究
3.3.1分析器的结构分析
3.3.2新的分析器的实现
3.4基于Hash的机械分词
3.4.1 Hash算法
3.4.2词典的格式
3.5多级Hash分词的实现
3.5.1分词模块
3.5.2索引模块
3.5.3搜索模块
3.6本章小结
第四章桌面搜索引擎系统的设计和实现
4.1系统总体结构
4.2开发环境介绍
4.2.1硬件环境
4.2.2软件资源
4.3桌面搜索引擎系统CoSou的实现
4.3.1索引建立模块
4.3.2查询模块
4.4实验设计与结果分析
4.4.1测试环境搭建
4.4.2分词的衡量因素
4.4.3实验过程
4.5本章小结
第五章总结和展望
5.1总结
5.2下一步工作
参考文献
致 谢
攻读学位期间发表的论文