基于Hbase的分布式全文索引及检索技术的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

进入大数据时代，数据量呈指数式爆炸增长。相比于纵向扩展单机的处理性能和存储容量，采用分布式服务器架构来进行数据的存储和检索是一种更经济和更易实现的解决方案。Hbase就是一个基于Hadoop分布式平台支持海量数据存储的非关系型数据库，并且在各大互联网公司都得到了广泛使用，但其缺点在于只支持主键检索，如何在Hbase数据库的基础上设计支持海量数据的全文索引和检索方案成为了当前的一个研究方向，它既可以解决海量数据的索引和检索问题，又对Hbase进行了赋能，有利于Hbase的深度开发和推广。本文提出了基于Hbase存储结合分布式内存缓存的索引分层存储模型以及使用MapReduce大数据计算模型进行索引构建的方案。设计了一种适合Hbase存储结构的倒排索引表，利用Hbase存储倒排索引，并使用分布式内存进行倒排索引的缓存，提高检索效率。将源文档分块，Map阶段并行构建局部倒排列表，Reduce阶段将局部倒排列表合并为全局倒排列表，采用单独的全局统计服务器进行索引全局信息的统计，解决了Map阶段局部索引构建过程中全局词频信息统计的问题。最后设计了基于向量空间模型的检索方案。针对Hbase重复存储Key值字段的存储特点，设计了字典压缩算法来压缩Hbase索引文件中的Key，使用变长字节码压缩算法压缩倒排列表中的位置列表。结合LRU和LFU缓存置换算法设计了适合全文检索场景的热点缓存置换策略，进一步提高了缓存的命中率。测试结果表明本方案达到了预期效果，在本文的测试集群中，索引的构建速度可以达到15MB/S。在源数据量达到TB级别时，使用压缩算法可以节省3/4的索引存储空间。得益于分层式索引存储结构和基于热点的缓存置换策略，在结果集较小时，检索的响应时间可以达到秒级，但当结果集比较大时，检索的响应仍然有优化的空间。

著录项

作者
姚雨涛;
展开▼
作者单位

华中科技大学;

展开▼
授予单位华中科技大学;
学科信息与通信工程
授予学位硕士
导师姓名李青侠;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算技术、计算机技术;系统科学;
关键词
分布式; 全文索引;

相似文献

中文文献
外文文献
专利

1. 基于HBase的遥感数据分布式存储与查询方法研究 [J] . 景维鹏 ,田冬雪 . 计算机工程与科学 . 2018,第006期
2. 基于HBase的分布式电源控制系统研究 [J] . 孟云侠 . 电源技术 . 2017,第009期
3. 基于HBASE分布式存储的通用海量日志系统设计方法研究 [J] . 陈波 . 信息通信 . 2017,第006期
4. 基于Hadoop和HBase的分布式索引模型的研究 [J] . 施磊磊 ,施化吉 ,束长波 . 信息技术 . 2015,第006期
5. 基于hadoop和hbase的分布式索引集群研究 [J] . 万轶 ,向广利 . 信息技术与信息化 . 2015,第001期
6. 基于HBase的遥感数据分布式存储与查询方法研究 [C] . Jing Weipeng ,景维鹏 ,Tian Dongxue . 2017年全国高性能计算学术年会 . 2017
7. 基于HBase的全文索引及检索技术的研究 [A] . 吴国泉 . 2015

基于Hbase的分布式全文索引及检索技术的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅