首页> 中文学位 >大数据存储结构及查询优化研究
【6h】

大数据存储结构及查询优化研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 课题的研究背景

1.2 课题的研究现状及意义

1.2.1 研究现状

1.2.2 课题意义

1.3 论文主要内容及组织结构

第2章 大数据发展趋势及其影响分析

2.1 大数据发展趋势分析

2.2 大数据的影响分析

2.2.1 数据访问频率的幂律分布

2.2.2 大数据访问模式对数据访问频率的影响

2.2.3 大数据的影响及其价值

2.3 本章小结

第3章 云计算与Hadoop原理分析

3.1 云计算概述

3.1.1 云计算基本概念

3.1.2 云计算的体系结构

3.1.3 云计算服务层次及与Hadoop关系

3.2 Hadoop基本原理

3.2.1 Hadoop概述

3.2.2 HDFS的体系结构

3.2.3 MapReduce的体系结构

3.2.4 MapReduce工作机制

3.3 本章小结

第4章 大数据在分布式处理中的资源消耗分析

4.1 MapReduce任务执行流程

4.2 MapReduce在执行过程中的耗时分析

4.3 影响大数据处理性能的关键因素

4.4 本章小结

第5章 大数据在分布式系统下的存储结构优化

5.1 大数据的特点及处理要求

5.1.1 大数据特点

5.1.2 大数据处理要求

5.2 现有数据存储结构的优点和缺点分析

5.2.1 行式存储结构优点和缺点分析

5.2.2 列式存储结构优点和缺点分析

5.2.3 分布式系统中数据存储结构的最优化分析

5.3 对现有数据存储结构的改进

5.3.1 以行列结合的存储结构

5.3.2 行列存储结构的特点分析

5.3.3 行列结合存储结构优点分析

5.4 Hadoop集群环境搭建

5.5 优化评估

5.6 本章小结

第6章 大数据查询优化分析

6.1 Hadoop中的数据查询方式分析

6.2 基于MapReduce的SQL查询

6.3 SQL翻译成MapReduce的性能分析

6.3.1 SQL翻译成MapReduce步骤

6.3.2 性能比较

6.3.3 影响性能的原因分析

6.4 对SQL翻译成MapReduce的方法优化

6.4.1 MapReduce作业间的相关性分析

6.4.2 利用相关性优化查询规则

6.5 通用MapReduce框架

6.5.1 通用Mapper和Reducer

6.6 优化评估

6.7 本章小结

结论

致谢

参考文献

附录一

作者简介

攻读硕士期间发表的论文和参加科研情况

展开▼

摘要

大数据不仅需要海量存储的系统,而且需要高速的数据加载、快速的查询处理、存储空间的高利用率以及适应动态高负载。由于传统关系型数据库在管理大数据时遇到各种困难和阻碍,新型分布式系统应运而生。但在大数据存储和查询仍有不足之处,本文从数据存储结构和MapReduce作业相关性两个方面对分布式系统下大数据存储结构及查询优化分析研究。
  在分布式系统中,数据存储结构直接影响大数据的存储效率和处理性能。行式存储结构下,数据从本地读取,加载速度快,但压缩效率低且加载了多余数据;列式存储结构下,数据压缩效率高,但数据跨节点访问增加了网络传输消耗。针对行式存储结构和列式存储结构的特点,提出一种以行列结合的存储方式,对数据存储结构进行改进。通过理论比较分析,行列结合存储在数据加载速度上略低于行式存储;在数据压缩效率上,比行式存储和列式存储的效率都高。行列结合的存储结构不仅避免行式存储的额外磁盘I/O开销,同时也减少了列式存储不必要的网络传输,极大地提高分布式系统对大数据存储效率及处理性能。
  现有翻译方式在复杂SQL查询时存在的低性能问题,其原因是忽略了MapReduce作业间的相关性,产生了大量冗余操作,消耗不必要的资源,从而急剧降低了查询性能。本文从输入相关性,数据转换相关性,作业流相关性三个方面对翻译结果进行优化改进,并给出优化条件和优化规则,合并冗余的MapReduce作业以减少不必要的资源消耗,从而提高大数据查询速度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号