首页> 中文学位 >基于HBase的交通大数据查询优化研究
【6h】

基于HBase的交通大数据查询优化研究

代理获取

目录

声明

摘要

1 绪论

1.1 课题研究背景与意义

1.2 研究现状

1.3 本文的主要研究内容

1.4 本文的组织架构

2 云存储技术基础

2.2 基于HDFS的HBase

2.2.1 数据读写

2.2.2 预写日志(WAL,Write Ahead Log)

2.2.3 缓存机制

2.2.4 底层文件HFile

2.3 基于HBase的分布式SQL解析引擎

2.3.1 将SQL整合到HBase的优势

2.3.3 交互式查询引擎Phoenix

2.4 本章小结

3 基于HBase的交通大数据存储查询平台的设计及实现

3.1 整体架构设计

3.2 基于HBase的存储层设计

3.2.1 HBase行键(RowKey)设计

3.2.2 基于MapReduce的二级索引设计

3.2.3 基于HBase的存储实现

3.3 基于Phoenix的处理层设计

3.3.1 Phoenix简介

3.3.2 Phoenix查询实现

3.3.3 性能对比

3.4 基于JSP的交通应用层设计

3.4.1 交通应用层的实现

3.4.2 基本功能

3.5 本章小结

4 基于机器学习的HBase配置参数优化

4.1 HBase配置参数

4.1.1 HBase配置参数简介

4.1.2 参数调优面临的挑战

4.2 基于YCSB的数据收集

4.2.1 YCSB原理

4.2.2 数据收集

4.3 基于随机森林的模型建立

4.3.1 随机森林原理

4.3.2 性能模型建立

4.3.3 实验设置

4.4 基于遗传算法的最优参数搜索

4.4.1 遗传算法原理

4.4.2 最优参数搜索

4.4.3 实验设置

4.5 性能加速比

4.6 本章小结

5 实验说明

5.1 实验环境

5.1.1 Hadoop安装

5.1.2 HBase安装

5.2 实验数据

结论

致谢

参考文献

展开▼

摘要

随着交通数据量的爆炸式增长,传统的交通数据处理手段在处理PB级的交通数据量时效率低下,云计算技术的出现为解决这个问题提供了方向。
  交通云将交通大数据和Hadoop云平台结合起来,利用Hadoop的非关系型数据库HBase实现对交通大数据的处理。HBase采用横向扩展的方式,通过多台廉价服务器实现海量数据的存储,并且具有高可靠性和高稳定性的特点。
  首先,提出了基于HBase的交通大数据存储方案。传统的关系型数据在存储交通大数据时存在容量小和效率低的问题,而且交通数据访问具有随机性的特点,为此选择交互式访问效率较高的HBase的进行交通数据存储。同时,为了提高HBase存储效率和访问速度,通过对历史交通数据的调研分析,构建特定行键的HBase表格,并且在HBase仅有的主键查询的基础上增加特定的二级索引,提高查询的速度。
  其次,提出了基于Phoenix on HBase的查询SQL查询方案。原生HBase不支持SQL查询,只能通过特定行键或者全局扫描的方式获取数据。面对无法识别标准SQL语句的HBase数据库时,很难满足用户习以为常的标准的SQL查询习惯,为此采用Phoenix实现SQL解析,将SQL语句转换成适合HBase执行的语句,不仅方便HBase的使用而且提高了查询效率。
  最后,提出了基于机器学习的HBase自动调参方案。HBase配置参数作为HBase集群工作过程中分配资源的依据,直接决定HBase集群性能的好坏。HBase具有高达200个配置参数,而默认配置往往性能低下,一般在面对如此多参数的时候,大部分的开发者都会根据自己的实际经验手动配置,但是这样往往比较耗时而且不是全局最优。为此采用机器学习算法,通过随机森林算法建立关于配置参数的性能模型,并且采用遗传算法快速找出性能最优的配置参数,这样能最快速的以最大的概率找到最优配置参数。
  通过采用HBase进行系统的设计和实现,进而对系统中的查询进行优化,以及对系统的整体查询性能进行测试,结果表明采用HBase处理交通大数据具有高可靠和速度快的特点。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号