Hadoop集群性能优化研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

时代见证了大数据的蓬勃发展，大数据的提取、存储和分析一直是IT领域的重要议题。许多优良的分布式系统和计算框架技术应运而生，作为其中的代表Hadoop和MapReduce从问世起，就引起了人们的广泛关注，很多大型公司都利用Hadoop集群作为它们存储数据和分析数据的主要平台，部署Hadoop已经成为一种IT行业技术发展的趋势。然而任何一种新技术都或多或少有其局限性，对于Hadoop来说，随着越来越多的公司采用Hadoop方案构建其基础平台，Hadoop存在的一些问题也凸显出来，其中商业环境下企业最重要的问题主要是集群性能的问题。本文针对Hadoop平台性能上存在的两个方面的问题提出了相应的优化方案，这对于整个Hadoop的发展和优化有着十分积极的作用。
　　首先第一个是关于集群数据分布策略的问题，我们知道数据本地性是影响Hadoop作业运行性能的关键因素，有一种说法是移动计算比移动数据要好，这是数据本地性的一个典型描述。数据本地性意味着几乎不需要额外传输数据的开销。而在实际的Hadoop集群中，如果集群是同构的，每个物理节点的计算性能相同，原始Hadoop的数据分布策略是根据数据备份机制把数据分布在集群的多个节点中，这样的分布策略在集群同构的情况下是十分有效的。然而在异构情况下，由于不同节点之间计算性能的差异，这会导致数据本地性的缺失，集群中不同节点之间需要传输数据，此时Hadoop集群的性能将会显著下降。因此在本文中，我们将深入研究了该问题，并提出了具体的数据分布方案，该方案的目的是对集群进行数据的负载均衡，即根据物理机器计算性能的大小来分配数据。本文通过实验证明了该数据分布机制的优越性。
　　另一个是关于数据传输的问题。shuffle阶段是MapReduce计算框架中作业运行的最重要的一部分，换句话说，shuffle阶段的性能直接影响着作业执行的性能，最直观地体现在作业运行时间上。为了避免网络拥塞，我们提出一个preshuffling算法来优化原有的shuffle方案，该算法通过预处理map和reduce阶段之间的中间数据，从而可以增加Hadoop集群的吞吐量。具体的实现包括主动的数据推送模型，可以减少reduce任务的平均等待时间，还有map任务和reduce任务之间数据传输的管道，可以提高数据传输的效率。本文通过实验证明了该方案可以优化上述问题，同时可以减少作业的响应时间。

著录项

作者
熊晟;
展开▼
作者单位

杭州电子科技大学;

展开▼
授予单位杭州电子科技大学;
学科计算机技术
授予学位硕士
导师姓名李运发;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
Hadoop集群; 数据分布; 备份机制; 负载均衡; 推送模型;

相似文献

中文文献
外文文献
专利

1. 基于Docker的Hadoop集群网络性能分析 [J] . 凌杰 ,黄刚 . 信息技术 . 2018,第002期
2. 基于Nagios的Hadoop集群性能监控 [J] . 钱涛 ,李建元 . 杭州电子科技大学学报 . 2015,第003期
3. Hadoop集群性能优化技术研究 [J] . 辛大欣 ,刘飞 . 电脑知识与技术 . 2011,第022期
4. Hadoop集群性能优化技术研究 [J] . 辛大欣 ,刘飞 . 电脑知识与技术：学术交流 . 2011,第008期
5. 组合养护对超高性能混凝土的性能优化研究综述 [J] . 刘莹 . 绿色环保建材 . 2020,第9期
6. 基于nagios的Hadoop集群性能监控 [C] . QIAN Tao ,钱涛 ,XUE Yizhao . 浙江省电子学会2014学术年会 . 2014
7. Hadoop集群实时性能监控及I/O性能优化研究 [A] . 朱乔 . 2015

Hadoop集群性能优化研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅