声明
摘要
第1章 绪论
1.1 课题的研究背景
1.2 课题的研究现状及意义
1.2.1 研究现状
1.2.2 课题意义
1.3 论文主要内容及组织结构
第2章 大数据发展趋势及其影响分析
2.1 大数据发展趋势分析
2.2 大数据的影响分析
2.2.1 数据访问频率的幂律分布
2.2.2 大数据访问模式对数据访问频率的影响
2.2.3 大数据的影响及其价值
2.3 本章小结
第3章 云计算与Hadoop原理分析
3.1 云计算概述
3.1.1 云计算基本概念
3.1.2 云计算的体系结构
3.1.3 云计算服务层次及与Hadoop关系
3.2 Hadoop基本原理
3.2.1 Hadoop概述
3.2.2 HDFS的体系结构
3.2.3 MapReduce的体系结构
3.2.4 MapReduce工作机制
3.3 本章小结
第4章 大数据在分布式处理中的资源消耗分析
4.1 MapReduce任务执行流程
4.2 MapReduce在执行过程中的耗时分析
4.3 影响大数据处理性能的关键因素
4.4 本章小结
第5章 大数据在分布式系统下的存储结构优化
5.1 大数据的特点及处理要求
5.1.1 大数据特点
5.1.2 大数据处理要求
5.2 现有数据存储结构的优点和缺点分析
5.2.1 行式存储结构优点和缺点分析
5.2.2 列式存储结构优点和缺点分析
5.2.3 分布式系统中数据存储结构的最优化分析
5.3 对现有数据存储结构的改进
5.3.1 以行列结合的存储结构
5.3.2 行列存储结构的特点分析
5.3.3 行列结合存储结构优点分析
5.4 Hadoop集群环境搭建
5.5 优化评估
5.6 本章小结
第6章 大数据查询优化分析
6.1 Hadoop中的数据查询方式分析
6.2 基于MapReduce的SQL查询
6.3 SQL翻译成MapReduce的性能分析
6.3.1 SQL翻译成MapReduce步骤
6.3.2 性能比较
6.3.3 影响性能的原因分析
6.4 对SQL翻译成MapReduce的方法优化
6.4.1 MapReduce作业间的相关性分析
6.4.2 利用相关性优化查询规则
6.5 通用MapReduce框架
6.5.1 通用Mapper和Reducer
6.6 优化评估
6.7 本章小结
结论
致谢
参考文献
附录一
作者简介
攻读硕士期间发表的论文和参加科研情况
河北工程大学;