首页> 中文学位 >大数据分析仓库Hive存储结构扩展的设计和实现
【6h】

大数据分析仓库Hive存储结构扩展的设计和实现

代理获取

目录

封面

声明

答辩决议书

中文摘要

英文摘要

目录

1 绪论

1.1 论文背景与意义

1.2 国内外研究现状

1.3 研究目标和内容

1.4论文结构安排

1.5 本章总结

2 相关技术分析

2.1 HDFS分布式文件系统

2.2 MapReduce计算框架

2.3 二维表数据存储技术

2.4 数据仓库Hive

2.5 本章总结

3 Hive存储结构的改进方案

3.1 Hive存储结构存在的问题

3.2 改进的存储结构FOSF的总体方案

3.3 基于多级元数据信息的列式索引算法

3.4 针对数据分布规律的自适应压缩算法

3.5 本章总结

4 FOSF的设计和实现

4.1 FOS F的列式索引算法IndeFi lter

4.2 FOS F的针对数据分布规律的自适应压缩算法

4.3 FOS F在Hive中的实现

4.4 本章总结

5 FOSF的测试和应用验证

5.1 TPC-H测试

5.2 应用验证

5.3 本章总结

6 总结与展望

6.1 本文工作总结

6.2 下一步工作

参考文献

致谢

攻读学位期间发表的学术论文目录

展开▼

摘要

Hadoop已经成为大数据领域流行的开源处理平台,且形成了较完备的生态系统。建立在Hadoop之上的Hive是Facebook开源的一个支持SQL查询的数据仓库。Hive把SQL查询转化为MapReduce任务并提交给Hadoop调度器进行调度,执行并返回查询结果。当前,Hive存在查询响应时间过长以及表数据存储空间过大两大问题,这些问题制约了Hive的发展。针对这些问题,学术界和工业界展开了一系列研究,主要体现在对SQL解析器的优化,Hive数据行并行解析,Hive表数据存储结构的优化,I/O利用率的优化,Reduce计算资源动态分配的研究以及HDFSRAID分级存储等方面。
  本文以某知名通讯设备公司(简称H公司)的数据中心项目为背景,针对Hive存在的SQL查询效率较低以及表数据存储空间较大这个问题,在对HDFS分布式文件系统、Map Red uce计算框架、二维表数据存储技术等相关技术分析的基础上,提出了一种改进的存储结构Flexible Optimized Segment File(简称FOSF)。该存储结构通过Hive提供的StorageHandler接口完成了实现。TPC-H实验和应用验证表明,FOSF相比于Hive当前的存储结构提高了20%左右的查询效率,节省了50%左右的存储空间,减少了10%左右的数据加载时间。
  本文的主要工作内容有如下几点:
  第一,Hive的存储结构RecordColumnFile在执行带filter条件的SQL语句时,无论满足filter条件的数据有多少行,其总是会加载整个filter列的数据进入内存。针对这个问题,本文提出了一种基于元数据信息的列式索引算法。该算法会为数据列建立记录最大值和最小值的索引信息,在进行filter条件计算的时候,能够通过读取filter列的索引信息来进行过滤,而不用加载整个filter列数据到内存里。实验表明,针对SQL查询中的filter列,该算法使得加载进入内存的filter列的数据量仅为RecordColumnFile的1/4;
  第二,为了提高查询效率,节省数据的存储空间,H公司要求利用数据的分布规律对其存储在Hive中的用户数据进行压缩。相关文献也表明针对数据列的分布规律进行压缩能提高SQL查询效率,节省数据存储空间。然而,Hive的存储结构在数据压缩时,采用的是LZO等压缩算法,这些压缩算法并没有考虑数据值分布规律。针对上述问题,本文提出了三种改进的针对H公司的用户数据分布规律的压缩算法,并提供自适应决策为H公司的用户数据列中随机分布的数据列选择综合性能更优的压缩算法。这三种算法分别适合于呈等差数列的数值分布规律,重复值较多且取值范围小的数值分布规律以及相邻数值增量差较小的分布规律。在数据列存储的时候,对于随机分布的数据列,自适应决策算法可以在对数据列压缩时选择能获得更高压缩性能的压缩算法进行压缩。实验表明,该算法使得Hive表数据的压缩比提高了50%左右,压缩时间降低了10%左右,解压缩时间降低了10%左右。
  第三,基于Hive提供的StorageHandler接口,在Hive中实现了FOSF结构。FOSF具备基于元数据信息的列式索引,利用数据分布规律的自适应压缩以及混合存储等关键特点。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号