首页> 中文学位 >基于单字的中文全文检索的研究与实现
【6h】

基于单字的中文全文检索的研究与实现

代理获取

目录

文摘

英文文摘

1绪论

1.1研究背景

1.2全文检索在远程教育系统的重要作用

1.3中文全文检索的研究现状

1.4中文全文检索算法的评价标准

1.5论文各部分的内容安排

2基于单字的中文全文检索数据结构和算法模型

2.1全文检索系统的主要技术问题

2.2全文检索系统的基本功能

2.3索引库的组织结构

2.4传统全文检索数据结构——倒排表及基本工作原理

2.4.1全文检索基本模型

2.4.2倒排表的工作原理

2.5全文检索速度效率分析

2.5.1影响检索速度的因素

2.5.2全文检索时间复杂度的计算方法

2.5.3传统倒排表检索效率分析

2.6改进的倒排表--后继倒排表及其工作原理

2.7小结

3基于单字的中文全文检索系统的实现方案

3.1系统整体设计方案

3.1.1系统设计目标

3.1.2系统类组成

3.1.3索引库的组织管理方案

3.2字表索引的实现

3.2.1字表索引的逻辑结构

3.2.2字表索引类的实现

3.3一级索引的实现

3.3.1一级索引性能分析

3.3.2不进行压缩的一级索引

3.3.3按位紧凑压缩法

3.3.4按字节存储压缩法

3.3.5压缩类的设计

3.3.6一级索引类的实现

3.4二级索引的实现

3.4.1二级索引性能要求及算法分析

3.4.2二级索引文件的逻辑结构

3.4.3 二级索引类的实现

3.5文档ID的管理

3.6系统的集成

3.6.1类ClndexManager介绍

3.6.2索引文档的添加

3.6.3索引文档的删除

3.6.4检索关键词

4索引和检索的优化

4.1索引信息Cache

4.1.1 Cache的数据结构

4.1.2 Cache页的调入调出

4.1.3 Cache访问流程

4.1.4 Cache同步访问

4.2索引的优化-索引重建

4.2.1索引碎片对查询效率的影响

4.2.2索引重建的方案

4.2.3索引重建应注意的问题

4.3查询结果的排序

4.3.1检索模型的定义

4.3.2检索模型的分类

4.3.3概率检索模型的排序算法

5测试结果与分析

5.1倒排网和倒排表检索实验结果对比分析

5.2索引压缩实验结果对比分析

结束语

致谢

参考文献

展开▼

摘要

本文就中文全文检索的不同算法模型,特别是基于分词和基于单字的不同全文检索算法进行了比较,分析了各自的优缺点和实现的难点,针对实际应用提出了一套不依赖于具体机器和操作系统的基于单字的中文全文检索系统的数据结构和算法模型。  首先,描述了倒排表的工作原理。通过对其检索效率的详细分析找出了影响其检索速度的瓶颈所在,进而针对这些问题提出了后继倒排表的存储结构,从而提高了检索的效率。  其次,用C++描述了如何开发一套完整的中文全文检索系统。为了便于灵活地对比各种索引压缩方案的性能,充分利用面向对象的多态性设计系统结构。用C++类封装各种索引的管理功能,类的内部实现对索引文件逻辑信息的组织和I/O,并向外部提供功能函数。  最后,对针对后继倒排表存储结构的索引特点提出了存储空间和检索的优化方案。设计了一种可以反馈用户对检索结果满意程度的排序算法,从而提高了检索的查准率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号