首页> 中文学位 >基于web的数字化资源全文检索系统的设计与实现
【6h】

基于web的数字化资源全文检索系统的设计与实现

代理获取

摘要

信息技术的迅速发展和万维网的出现产生了大量的数据,特别是以doc格式、pdf格式、txt格式的数据呈海量增长的趋势。如何合理的组织和存储这些异构数据,提高检索的效率,是全文检索领域面临的一个重要问题。本课题的研究任务是设计实现一个中文全文检索系统,实现对地方志资料的全文检索功能。
   本课题深入研究了全文检索的原理,包括索引定义、索引内容、索引创建和索引搜索。本课题采用Lucene开源搜索技术。本文详细分析了Lucene的结构组成、索引过程、搜索过程、数据流组织和检索包结构及各自功能。
   本课题索引存储结构采用倒排表结构,有效的存取倒排表和快速响应搜索操作在全文搜索领域中起着至关重要的作用。本文对索引存储结构进行了深入的分析,设计一种能够有效提高索引压缩率的索引文档重排算法--聚类索引重排算法。该算法将相似度高的文档排列在一起,从而减少编码文档编号之间的差值所需要的字节数,达到提高搜索效率的效果。通过测试,聚类索引重排算法可以明显减少索引存储空间,达到索引压缩效果。
  。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号