首页> 中文学位 >基于Hbase的分布式全文索引及检索技术的研究
【6h】

基于Hbase的分布式全文索引及检索技术的研究

代理获取

目录

第一个书签之前

摘 要

Abstract

目 录

缩略语

1 绪论

1.1 研究背景及意义

1.2 相关技术研究现状

1.2.1 华为的二级索引方案

1.2.2 基于Lucene的索引检索方案

1.3 研究内容和章节安排

2 Hadoop和全文索引相关理论及技术

2.1 分布式计算平台Hadoop及Hbase

2.1.1 HDFS分布式文件系统

2.1.2 HBase

2.2 MapReduce大数据计算模型

2.3 全文索引的相关技术

2.3.1 倒排索引

2.3.2 分词

2.3.3 TF和IDF值

2.3.4 向量空间模型

2.4 本章小结

3 基于Hbase的分布式全文索引架构和方案设计

3.1 索引存储模型及分布式缓存模型

3.2 基于Hbase的倒排索引存储结构设计

3.2.1 Hbase的文件存储系统

3.2.2 倒排索引表的设计

3.3 索引构建及索引全局信息统计

3.3.1 MapReduce构建倒排索引的过程

3.3.2 倒排索引的全局信息统计

3.4 基于向量空间模型的检索方案

3.4.1 查询引擎工作原理

3.4.2 查询引擎内存占用优化

3.5 本章小结

4 索引表的压缩算法及索引构建检索的优化技术

4.1 索引表的压缩

4.1.1 压缩算法

4.1.2 解压缩算法

4.1.3 压缩算法分析

4.1.4 压缩一个键值对(Key/Value)

4.2 索引缓存策略研究

4.3 流水线式的索引构建加速方法

4.4 本章小结

5 实验及结果分析

5.1 索引构建时间开销分析

5.2 索引大小及索引压缩比分析

5.3 检索性能及缓存命中率分析

5.4 本章小结

6 总结与展望

6.1 论文总结

6.2 论文展望

致 谢

附录

参考文献

展开▼

摘要

进入大数据时代,数据量呈指数式爆炸增长。相比于纵向扩展单机的处理性能和存储容量,采用分布式服务器架构来进行数据的存储和检索是一种更经济和更易实现的解决方案。Hbase就是一个基于Hadoop分布式平台支持海量数据存储的非关系型数据库,并且在各大互联网公司都得到了广泛使用,但其缺点在于只支持主键检索,如何在Hbase数据库的基础上设计支持海量数据的全文索引和检索方案成为了当前的一个研究方向,它既可以解决海量数据的索引和检索问题,又对Hbase进行了赋能,有利于Hbase的深度开发和推广。 本文提出了基于Hbase存储结合分布式内存缓存的索引分层存储模型以及使用MapReduce大数据计算模型进行索引构建的方案。设计了一种适合Hbase存储结构的倒排索引表,利用Hbase存储倒排索引,并使用分布式内存进行倒排索引的缓存,提高检索效率。将源文档分块,Map阶段并行构建局部倒排列表,Reduce阶段将局部倒排列表合并为全局倒排列表,采用单独的全局统计服务器进行索引全局信息的统计,解决了Map阶段局部索引构建过程中全局词频信息统计的问题。最后设计了基于向量空间模型的检索方案。 针对Hbase重复存储Key值字段的存储特点,设计了字典压缩算法来压缩Hbase索引文件中的Key,使用变长字节码压缩算法压缩倒排列表中的位置列表。结合LRU和LFU缓存置换算法设计了适合全文检索场景的热点缓存置换策略,进一步提高了缓存的命中率。 测试结果表明本方案达到了预期效果,在本文的测试集群中,索引的构建速度可以达到15MB/S。在源数据量达到TB级别时,使用压缩算法可以节省3/4的索引存储空间。得益于分层式索引存储结构和基于热点的缓存置换策略,在结果集较小时,检索的响应时间可以达到秒级,但当结果集比较大时,检索的响应仍然有优化的空间。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号