首页> 中文学位 >Hadoop集群性能优化研究
【6h】

Hadoop集群性能优化研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.3 本文工作

1.4 文章的组织结构

第二章 Hadoop相关技术研究

2.1 HDFS

2.2 MapReduce

2.3 本章小结

第三章 异构集群数据分布的优化

3.1问题描述

3.2相关技术研究

3.3数据分布算法

3.4具体实现

3.5 性能评估

3.6 本章小结

第四章 shuffle过程的优化

4.1问题描述

4.2相关技术研究

4.3 preshuffling方案的设计

4.4 preshuffling方案的实现

4.5 性能评估

4.6 本章小结

第五章 总结与展望

5.1本文工作总结

5.2展望

致谢

参考文献

附录

展开▼

摘要

时代见证了大数据的蓬勃发展,大数据的提取、存储和分析一直是IT领域的重要议题。许多优良的分布式系统和计算框架技术应运而生,作为其中的代表Hadoop和MapReduce从问世起,就引起了人们的广泛关注,很多大型公司都利用Hadoop集群作为它们存储数据和分析数据的主要平台,部署Hadoop已经成为一种IT行业技术发展的趋势。然而任何一种新技术都或多或少有其局限性,对于Hadoop来说,随着越来越多的公司采用Hadoop方案构建其基础平台,Hadoop存在的一些问题也凸显出来,其中商业环境下企业最重要的问题主要是集群性能的问题。本文针对Hadoop平台性能上存在的两个方面的问题提出了相应的优化方案,这对于整个Hadoop的发展和优化有着十分积极的作用。
  首先第一个是关于集群数据分布策略的问题,我们知道数据本地性是影响Hadoop作业运行性能的关键因素,有一种说法是移动计算比移动数据要好,这是数据本地性的一个典型描述。数据本地性意味着几乎不需要额外传输数据的开销。而在实际的Hadoop集群中,如果集群是同构的,每个物理节点的计算性能相同,原始Hadoop的数据分布策略是根据数据备份机制把数据分布在集群的多个节点中,这样的分布策略在集群同构的情况下是十分有效的。然而在异构情况下,由于不同节点之间计算性能的差异,这会导致数据本地性的缺失,集群中不同节点之间需要传输数据,此时Hadoop集群的性能将会显著下降。因此在本文中,我们将深入研究了该问题,并提出了具体的数据分布方案,该方案的目的是对集群进行数据的负载均衡,即根据物理机器计算性能的大小来分配数据。本文通过实验证明了该数据分布机制的优越性。
  另一个是关于数据传输的问题。shuffle阶段是MapReduce计算框架中作业运行的最重要的一部分,换句话说,shuffle阶段的性能直接影响着作业执行的性能,最直观地体现在作业运行时间上。为了避免网络拥塞,我们提出一个preshuffling算法来优化原有的shuffle方案,该算法通过预处理map和reduce阶段之间的中间数据,从而可以增加Hadoop集群的吞吐量。具体的实现包括主动的数据推送模型,可以减少reduce任务的平均等待时间,还有map任务和reduce任务之间数据传输的管道,可以提高数据传输的效率。本文通过实验证明了该方案可以优化上述问题,同时可以减少作业的响应时间。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号