首页> 中文学位 >Hadoop平台的MapReduce模型性能优化研究
【6h】

Hadoop平台的MapReduce模型性能优化研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

图目录

表目录

第一章 绪 论

1.1课题研究背景

1.2国内外研究现状

1.3课题研究内容与意义

1.4文章组织结构

第二章 Hadoop关键技术研究

2.1 Hadoop技术背景

2.2 Hadoop主要特点

2.3分布式文件系统HDFS

2.4 MapReduce计算模型

2.5作业调度研究

2.6本章小结

第三章 MapReduce应用性能调优研究

3.1调优策略研究

3.2程序调优

3.3参数调优

3.4本章小结

第四章 MapReduce资源管理优化及实现

4.1资源管理性能分析

4.2资源管理改进方案

4.3改进方案目标

4.4改进方案实现

4.5实验平台搭建

4.6仿真实验及结果分析

4.7本章小结

第五章 MapReduce计算模型改进及实现

5.1 Task实现与分析

5.2 Shuffle排序实现改进方案

5.3改进方案目标

5.4 Shuffle排序改进方案实现

5.5仿真实验及结果分析

5.6本章小结

第六章 全文总结与展望

6.1全文总结

6.2后续工作展望

致谢

参考文献

攻读硕士学位期间取得的成果

展开▼

摘要

大数据时代不但带来了数据量的迅猛增长、数据访问的并发压力,也对数据计算提出了更高的性能要求。云计算作为一种解决方案,被提出之后就得到了迅速发展。它近乎无限的存储能力和计算能力为互联网的发展指明了一个新的方向。Hadoop作为目前主流的云计算平台,也得到了广泛的认可和应用。
  Hadoop是一种高可用性、高伸缩性、高扩展性的高性能大数据处理平台。同时它又兼具低成本和开源优势。它的实现有两个核心:HDFS(Hadoop Distributed File System)和MapReduce。HDFS是一个支持超大文件、流式访问,并具有高吞吐量的分布式文件系统。MapReduce是一个将所有并行实现透明化,只为用户提供简单接口,并具有快速并行计算能力的并行编程模型。
  本文首先介绍了Hadoop平台的背景,包括它在技术背景上的产生与发展,在应用背景上的应用与前景。之后对 Hadoop的关键技术 HDFS、MapReduce和Scheduler进行研究分析。在此研究基础之上,本文指出MapReduce应用可在程序、参数和系统三个层面进行优化。程序和参数两个层面实现优化的可选项很多,本文在第三章对此作了详细阐述。
  Hadoop在管理资源中将内存和CPU两种计算资源捆绑在一起,然后再根据任务类型分为Map Slot和Reduce Slot两种资源模型。这种管理机制实现简单,但是存在资源囤积现象,降低了资源利用率。本文在第四章对这两种计算资源进行松绑,并定义了memSlot和cpuSlot两种资源模型。在资源分配时,根据Map/Reduce的实际需求来派发两种资源。在7节点的PC集群上对21GB的日志数据进行处理,改进方案实现了内存利用率提升3.5%,CPU利用率提升4.3%,有效解决了资源囤积现象。
  MapReduce应用在运行中会有大量的排序操作。这些排序大多又是迭代执行,性能消耗较大。本文第五章以此为切入,重新梳理了Shuffle阶段的执行流程。研究了以更加高效的计数排序代替快速排序。同时根据 Combiner的定义对 Shuffle执行进行分支。一个分支删去了spill阶段的分区内快速排序和combine阶段的归并排序,减少性能消耗。另一分支提前执行 Combiner,提升数据处理效率。两个分支在7节点的PC集群上对21GB的日志数据进行处理,都实现了约半小时的效率提升。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号