首页> 中文学位 >Map Reduce Fair Scheduler的高性能优化及超大规模集群模拟器设计及实现
【6h】

Map Reduce Fair Scheduler的高性能优化及超大规模集群模拟器设计及实现

代理获取

摘要

当前互联网面临着PB级数据集的存储和计算的难题,传统的单机内存式编程已经达到其瓶颈,而Hadoop正在被越来越多地用来处理海量数据的分布式存储和计算,是一种易扩展的分布式计算框架,将廉价的PC节点联合起来提供提供存储和计算服务,其MapReduce框架为用户提供了容易使用的并行处理大规模数据的编程模型。以此为背景,本文深入分析了MapReduce的工作原理和机制,以及Hadoop平台的主从式系统架构。
   Facebook在其自身数据规模大,小作业多,对作业响应时间要求高的特点下,设计并实现了MapReduce的公平调度器,但是在长时间的批处理作业和短时间的交互型作业混合的超大集群中,公平调度器的性能会严重减弱,也使得公平调度器普适性不高。本文基于Facebook的公平调度器,深入分析了其性能瓶颈,指出优化难点,并进行针对性的优化:(1)延迟调度策略(2)Shuffle独立(3)多任务分配(4)oob心跳,及其他的一些优化,从而解决数据本地性差和reduce的计算资源利用率不高等问题,从响应时间和吞吐量两个方便提高了调度器性能,并进行相应的分析。
   随着Hadoop的普及,Hadoop集群的benchmark测试工具也将越来越被重视,在此背景下,结合真实的线上生产集群,本文设计并实现了超大规模hadoop集群的模拟器,并对其功能和性能做了验证性测试,其主要功能有(1)用1~2台服务器模拟超大规模集群,(2)模拟客户端并发提交作业,提供全面的benchmark测试。基于模拟器搭建了2000个节点的模拟集群,分别对FIFO,FairScheduler和新的公平调度器进行全面的对比测试。结果证明,新的公平调度器在复杂的超大规模集群中,可以让作业在更加公平的环境下竞争,整个集群的吞吐量比优化前的公平调度器提高平均25%,最高40%;单个作业的平均响应时间增长了5%~25%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号