首页> 中文学位 >面向动态文档集的大规模文本索引构建技术的研究
【6h】

面向动态文档集的大规模文本索引构建技术的研究

代理获取

目录

面向动态文档集的大规模文本索引构建技术的研究

THE STUDY OF TEXT INDEXCONSTRUCTION FOR LARGE-SCALEDYNAMIC COLLECTION

摘要

Abstract

第1章 绪论

1.1 课题研究的背景和意义

1.2 研究现状及成果

1.3 发展趋势

1.4 本文的主要研究内容及组织方式

第2章 面向动态文档集的索引模型

2.1 索引结构

2.2 系统流程及框架

2.3 关键问题分析

2.4 本章小结

第3章 在线索引的构建

3.1 索引构建机制

3.2 动态文档索引

3.3 词典维护

3.4 本章小结

第4章 面向动态环境的实时检索

4.1 检索模型

4.2 分布式检索

4.3 查询性能分析

4.4 本章小结

第5章 索引与检索性能评价

5.1 系统性能验证

5.2 索引与检索性能平衡

5.3 本章小结

结论

参考文献

哈尔滨工业大学硕士学位论文原创性声明

哈尔滨工业大学硕士学位论文使用授权书

哈尔滨工业大学硕士学位涉密论文管理

致谢

展开▼

摘要

在动态文档集环境中,索引的组织方式需要在检索效率和更新效率上进行调节与折衷。为了提高索引效率,索引的索引项数据用拉链方式分块存放,但会降低检索效率;反之亦然。索引模型的设计往往围绕索引和检索效率的平衡;传统索引模型中为了优先保证检索效率,将索引更新的实时性放在一个次要的位置,但文本检索系统应用环境的日益多样化,对检索的实时性提出了新的要求。
  本文研究大规模文本在线索引的构造方法,在动态文档集环境中,系统在构建倒排索引的同时提供检索服务,动态文档集中的文档更新可以及时在索引库中同步更新;通过索引维护策略的研究和对比,本文设计了一个优化的索引模型,在保证检索效率的前提下,使索引系统的实时性有了很大提高;提出了一种基于完全树的在线索引构建方法,利用完全树的特征控制索引合并过程,以减少索引合并代价,同时可以调节索引和检索的性能平衡,与以前方法相比,具有更高的性能和更好的规模可扩展性,并在理论和实验中验证了这种索引维护方法的高效性。
  以此索引模型实现的系统为平台,进行了索引与检索的效率平衡、检索性能预测的相关实验,研究索引和检索这两个指标在动态文档集中的平衡关系,对比了几种检索性能预测方法的效果和效率,通过对检索前查询预测机制的分析,为系统在检索模型上的扩展提供了实验分析和平台。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号