首页> 中文学位 >面向全文检索的在线索引关键技术研究
【6h】

面向全文检索的在线索引关键技术研究

代理获取

目录

面向全文检索的在线索引关键技术研究

RESEARCH ON ON-LINE INDEXING FOR FULL-TEXT RETRIEVAL

摘 要

Abstract

目 录

Contents

第1章 绪 论

1.1 课题研究背景和意义

1.2 国内外研究现状和综述

1.2.1 离线索引管理技术研究现状

1.2.2 在线动态索引管理研究现状

1.3 课题研究内容

1.4 本文的结构安排

第2章 在线索引的相关基础知识

2.1 引言

2.2 全文检索概述及基本概念

2.2.1 全文检索概述

2.2.2 全文检索及在线索引相关基本概念

2.3 在线索引

2.3.1 在线索引要求及过程

2.3.2 在线索引模型

2.4 常用的在线索引方法

2.4.1 GP在线索引方法

2.4.2 混合在线索引方法

2.4.3 DBT在线索引方法

2.5 本章小结

第3章 支持在线文档删除的全文检索方法

3.1 引言

3.2 在线索引文件系统设计

3.2.1 倒排索引结构

3.2.2 倒排索引的压缩存储

3.2.3 在线索引的文件系统

3.3 支持文档删除的GPDID算法

3.3.1 算法基本原理

3.3.2 算法优化策略

3.3.3 算法流程及描述

3.4 实验与分析

3.4.1 实验数据描述

3.4.2 评测指标

3.4.3 GPDID算法索引及检索性能分析

3.5 本章小结

第4章 基于动态类哈夫曼树的在线全文索引方法

4.1 引言

4.2 基于层次合并的在线索引模型

4.3 在线索引的子索引划分

4.4 基于动态类哈夫曼树的索引构建算法

4.4.1 提高索引性能和检索性能的基本策略

4.4.2 动态类哈夫曼树

4.4.3 基于动态类哈夫曼树的索引合并算法

4.4.4 基于动态类哈夫曼树的垃圾文档回收

4.5 倒排索引文件的存储

4.6 实验与分析

4.6.1 实验环境及实验过程

4.6.2 实验结果及分析

4.7 本章小结

第5章 支持在线索引的全文检索系统设计与实现

5.1 引言

5.2 系统的功能和目标

5.3 系统总体设计

5.4 系统详细设计

5.4.1 解析器模块

5.4.2 分析器模块

5.4.3 索引读写模块

5.4.4 检索模块

5.4.5 索引存储模块

5.5 系统展示

5.5.1 开发平台及工具

5.5.2 索引更新功能展示

5.5.3 检索功能展示

5.6 本章小结

结 论

参考文献

哈尔滨工业大学硕士学位论文原创性声明

哈尔滨工业大学硕士学位论文使用授权书

致 谢

展开▼

摘要

随着互联网信息的日益膨胀,人们能够获得的信息越来越多,但要准确、及时的获取需要的最新信息却有些困难。在线索引构建及管理作为搜索系统的重要组成部分,目的是要针对浩瀚的互联网数据高效的构建索引,做到实时更新索引,从而为检索用户提供及时、准确、全面的最新信息。本文主要研究的就是如何在线环境下构建并管理索引,如何平衡索引和检索之间的性能。
  本文从全文检索的倒排索引技术展开,重点研究基于动态文档集的索引构建和管理算法及索引和检索性能的平衡,取得了以下研究成果:
  (1)本文对基于倒排索引的文件结构以及索引构建合并算法进行了研究,针对在线索引的应用场景和需求,设计并实现了一种针对在线索引的高效的倒排索引文件结构,有效的支持了在线索引的构建及更新。
  (2)本文通过研究在线环境下索引更新的特点,提出了针对文档删除的索引管理算法。与传统的针对删除的索引管理算法相比,该算法引入了基于门限值进行垃圾文档删除的思想,实验表明,该算法有效的提高了文档删除时的索引性能,同时也保证了高效的检索性能。
  (3)提出了一种基于动态类哈夫曼树的索引构建及管理算法。与传统的索引构建及更新算法相比,该算法能够并行的处理文档插入和删除时的情况,并采用了多路合并的方式,可以选择非相邻的子索引合并,更为灵活。实验结果表明,该算法能够有效的处理文档增加和删除时的索引更新,并且能够平衡索引和检索性能。
  基于上述研究成果,本文设计了针对动态文档集的全文检索系统,包括解析模块、索引模块、检索模块、存储模块等,为进行相关的算法实验和研究提供了一个基础平台。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号