首页> 中文学位 >基于HBase的多维索引查询机制的优化研究
【6h】

基于HBase的多维索引查询机制的优化研究

代理获取

目录

声明

1 绪论

1.1研究背景

1.2研究目的及意义

1.3研究现状

1.4论文主要的工作

1.5论文各章节安排

2相关技术

2.1 HBase技术基础

2.1.1 Hadoop平台

2.1.2 HDFS体系结构

2.1.3 HBase整体架构

2.2 线性化技术

2.3 多维索引结构

2.3.1 多维索引结构

2.3.2 最长公共前缀命名方案

2.4 多维索引方案MD-HBase

2.4.1 MD-HBase基础

2.4.2 MD-HBase整体结构

2.4.3 MD-HBase索引结构

2.5 MD-HBase的查询分析

(1) 子空间查找和点查询

(2)插入操作

(3)范围查询

(4)k近邻查询

2.6 本章小结

3 New-grid数据分发和索引框架

3.1 New-grid整体架构设计

3.2填充曲线Hilbert曲线的方案

3.3 基于覆盖网络P-grid的优化构造算法

3.3.1覆盖网络P-grid的介绍

3.3.2覆盖网络P-grid构造算法的优化

3.3.3 P-grid的优化搜索查询

3.4 数据存储层

3.4.1键值存储层Apache HBase

3.4.2存储模型

3.5 数据查询与处理的算法优化

3.5.1数据插入和点查询

3.5.2范围查询处理

3.5.3 k近邻查询查询处理

3.6 实验设计与分析

3.6.1 实验环境

3.6.2 实验方案

3.6.3 实验及分析

3.6.4 实验结论

3.7 本章小结

4 基于机器学习的HBase配置参数优化

4.1 参数问题

4.1.1 HBase配置参数介绍

4.1.2 HBase应用程序的数据流

4.1.3 参数问题分析

4.2基于随机森林算法的模型建立

4.2.1随机森林算法原理

4.2.2性能模型的建立

4.3基于遗传算法的参数优化搜索

4.3.1遗传算法原理

4.3.2自动参数最优搜索

4.4 实验设计与分析

4.4.1 实验环境

4.4.2 实验方案

4.4.3 实验及分析

4.3.4 实验结论

4.4 本章小结

5 总结与展望

5.1 总结

5.2 展望

参考文献

个人简历、在校期间研究成果

致谢

展开▼

摘要

移动设备的广泛使用和用户位置信息的实时可用性正在促进新的个性化、基于位置的应用程序和服务(LBSs)的开发。此类应用程序需要能够实现多属性查询、实时查询、大数据分析及支持数百万用户的可伸缩性。新一代的分布式数据库从大量数据中提取值,同时具有高可用性、容错性和可伸缩性,因此提供了非常需要的基础设施来支持LBSs。但是,它不能有效地处理多维数据上的复杂查询,因为它们不提供访问多个属性的方法。因而,为实现多维查询以及提高实时查询效率,本文对基于HBase的多维索引机制以及优化策略进行了研究,主要工作如下: (1)提出了New-grid方案,一个基于HBase的统一的索引和数据分发框架,它利用键值存储来支持多维查询。首先,对P-grid进行了改进,在覆盖网络中组织了一组节点,使其能够提供有效的数据分布、容错和多维数据的查询处理。其次,为了建立索引,使用了基于Hilbert空间填充曲线的线性化技术,该技术保留了数据的局部性,有效地管理键值存储中的多维数据。最后,优化了动态处理范围查询和k近邻查询的算法,这消除了单独索引表的维护开销。该方法完全独立于底层存储层,可以在任何云基础设施上实现。 (2)提出了基于HBase的自动配置参数调优方案,HBase有许多影响系统性能的配置参数,这些参数之间以复杂的方式相互影响,使得手动调整它们以获得最佳性能变得极其困难。底层配置参数优化的关键问题是建立以配置参数为输入的低成本的精确性能模型。通过分析和研究,新方案中使用随机森林算法来构建性能模型,并结合遗传算法及性能模型为HBase应用系统搜索最优配置参数从而提高HBase的性能。 (3)搭建了Hadoop实验平台,通过实验验证了所提出的多维查询方案和参数调优方案的有效性和效率。实验结果表明,New-grid方案可以有效提高基于Hbase的多维数据查询效率,参数调优方案可以提高HBase的性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号