首页> 中文学位 >面向时空数据的HBase索引与查询技术研究
【6h】

面向时空数据的HBase索引与查询技术研究

代理获取

目录

1 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 时空索引与查询方案研究现状

1.2.2 二级索引与查询方案研究现状

1.3 研究内容与目标

1.4 论文结构安排

1.5 本章小结

2 面向时空数据的HBase索引与查询技术分析

2.1.1 时空数据概述

2.1.2 相关索引

2.2 HBase系统分析

2.2.1 HBase模型与架构

2.2.2 协处理器

2.2.3 HBase检索方式与索引原理分析

2.3 面向时空数据的HBase索引与查询优化方案的整体框架

2.3.1 存储模型

2.3.2 索引模型

2.3.3 查询方法

2.4 本章小结

3 面向时空数据的HBase索引优化模型研究

3.1 面向时空数据的HBase存储模型

3.1.1 行键设计

3.1.2 列族设计

3.1.3 分区设计

3.2 分层时空索引模型

3.2.1 基于Meta表的全局索引层

3.2.2 基于Region的局部索引层

3.3 分类二级索引模型

3.3.1 基数较小列的位图索引

3.3.2 基数较大但无范围查询需求列的哈希索引

3.3.3 基数较大且有范围查询需求列的BD树索引

3.4 基于Observer协处理器的索引管理机制

3.4.1 索引构建

3.4.2 索引维护

3.5 本章小结

4 面向时空数据的HBase查询优化方法研究

4.1 基于Endpoint协处理器的并行查询机制

4.2 查询优化方法实现

4.2.1 时空范围查询

4.2.2 K近邻查询

4.2.3 条件查询

4.3 本章小结

5 实验与分析

5.1 实验环境及数据集

5.2 分区性能实验

5.3 条件查询实验

5.3.1 索引查询时间对比

5.3.2 结果查询时间对比

5.3.3 整体查询时间对比

5.3.4 集群扩展实验

5.4 时空查询实验

5.4.1 时空范围查询实验

5.4.2 K近邻查询实验

5.5 方案开销实验

5.5.1 时间开销实验

5.5.2 空间开销实验

5.6 本章小结

6 总结与展望

6.1 总结

6.2 展望

参考文献

附 录

A 作者在攻读硕士学位期间发表的论文目录

B 作者在攻读硕士学位期间发表的发明专利

C 作者在攻读硕士学位期间参加的科研项目

D 学位论文数据集

致 谢

展开▼

摘要

时空数据是一种同时具备时间、空间以及其他属性的大数据,在生产生活中发挥着积极作用。研究海量时空数据的高效存储与查询具有重要的意义和价值。  分布式存储系统相较于传统关系型数据库能更好地处理大数据的存取。作为典型技术之一,HBase以其开源、高可靠和高扩展等特性受到了广泛的研究与应用。事实上,原生HBase仅在行键上做了索引优化,缺少对时空索引和二级索引的支持,无法直接满足时空数据高效的时空查询和条件查询需求。  本文结合现有HBase索引与查询技术的特点,提出一种面向时空数据的HBase索引与查询优化方案,由下到上分为存储模型、索引模型和查询方法。其中,存储模型实现时空数据的合理存储;索引模型实现时空索引和二级索引的设计管理;查询方法则实现快速的时空查询和条件查询。主要研究内容如下:  ①面向时空数据的HBase存储模型。为了实现时空数据的合理存储,通过Geohash编码对空间信息进行网格划分,并提出基于历史统计的网格分区方法解决数据热点问题。  ②分层时空索引模型(Hierarchical Spatiotemporal Index,HSTIndex)。为了提升时空查询的性能,设计了基于Meta表的全局索引层和基于Region的局部索引层,利用时空信息对数据进行分层筛选。  ③分类二级索引模型(Classification Secondary Index,CSIndex)。为了提升条件查询的性能,根据其他属性列的数据特征和查询条件设计了包括位图、哈希和BD树在内的内存索引结构。此外,提出了基于Observer的索引管理机制,用于实现对HSTIndex和CSIndex的有效管理。  ④面向时空数据的HBase查询方法。结合存储模型和索引模型,提出了基于Endpoint的并行查询机制,并设计了基于HSTIndex的时空范围查询和K近邻查询优化算法,以及基于CSIndex的条件查询优化算法。  最终,在真实的出租车轨迹数据上进行了对比实验。实验结果表明,分区方法的性能优于传统方法,基于HSTIndex的时空查询性能也要优于STEHIX(Spatio-Temporal HBase Index)时空索引方案,基于CSIndex的条件查询性能则明显优于HiBase(Hierarchical-indexed HBase)和基于Solr的二级索引方案,且时间和空间开销在可接受范围内。总的来说,本文方案提升了时空数据整体的存取性能,具有一定的应用价值。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号