文摘
英文文摘
1绪论
1.1研究背景
1.2全文检索在远程教育系统的重要作用
1.3中文全文检索的研究现状
1.4中文全文检索算法的评价标准
1.5论文各部分的内容安排
2基于单字的中文全文检索数据结构和算法模型
2.1全文检索系统的主要技术问题
2.2全文检索系统的基本功能
2.3索引库的组织结构
2.4传统全文检索数据结构——倒排表及基本工作原理
2.4.1全文检索基本模型
2.4.2倒排表的工作原理
2.5全文检索速度效率分析
2.5.1影响检索速度的因素
2.5.2全文检索时间复杂度的计算方法
2.5.3传统倒排表检索效率分析
2.6改进的倒排表--后继倒排表及其工作原理
2.7小结
3基于单字的中文全文检索系统的实现方案
3.1系统整体设计方案
3.1.1系统设计目标
3.1.2系统类组成
3.1.3索引库的组织管理方案
3.2字表索引的实现
3.2.1字表索引的逻辑结构
3.2.2字表索引类的实现
3.3一级索引的实现
3.3.1一级索引性能分析
3.3.2不进行压缩的一级索引
3.3.3按位紧凑压缩法
3.3.4按字节存储压缩法
3.3.5压缩类的设计
3.3.6一级索引类的实现
3.4二级索引的实现
3.4.1二级索引性能要求及算法分析
3.4.2二级索引文件的逻辑结构
3.4.3 二级索引类的实现
3.5文档ID的管理
3.6系统的集成
3.6.1类ClndexManager介绍
3.6.2索引文档的添加
3.6.3索引文档的删除
3.6.4检索关键词
4索引和检索的优化
4.1索引信息Cache
4.1.1 Cache的数据结构
4.1.2 Cache页的调入调出
4.1.3 Cache访问流程
4.1.4 Cache同步访问
4.2索引的优化-索引重建
4.2.1索引碎片对查询效率的影响
4.2.2索引重建的方案
4.2.3索引重建应注意的问题
4.3查询结果的排序
4.3.1检索模型的定义
4.3.2检索模型的分类
4.3.3概率检索模型的排序算法
5测试结果与分析
5.1倒排网和倒排表检索实验结果对比分析
5.2索引压缩实验结果对比分析
结束语
致谢
参考文献
北京交通大学;