提高任务并行度以优化MapReduce集群资源的利用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

作为一种编程模型，MapReduce已经成为处理大规模数据处理问题的一个重要手段。目前，MapReduce已被广泛地应用于Web搜索，机器学习，电子商务等领域。Hadoop,作为MapReduce的一种开源实现，已经被广泛地用到离线大数据处理。目前因为对处理海量数据的要求持续增长，Hadoop集群的规模也变的越来越大。为了管理大规模集群，人们试图去提高集群的效率水平，用更强大的计算节点和水平扩展去构建的集群。这时高效地利用集群资源将变得更有挑战性。在研究Hadoop的过程中，发现在Hadoop的数据处理的并行粒度是比较大的，同时它不能充分利用多核系统的优势。这些问题会降低整个集群资源利用率和集群效率。为此，本文提出一种更加细粒度的数据处理策略，在增加系统负担的情况下，对HDFS的数据块进一步地进行分片，同时，在MapReduce的任务下产生多线程，充分利用多核系统，进一步地进行以提高任务执行的并行度，从而优化集群资源利用率和提升作业执行的速度。我们把这个策略作为一个功能模块实现在开源项目Hadoop上，并且这个的实现并不会影响Hadoop原来的执行策略。为了验证本文提出的这个策略，我们在搭建了Hadoop集群，并做了广泛的实验。实验结果显示本文提出的策略不仅能优化MapReduce集群的资源利用率，还能缩短作业的完成时间至三倍。

著录项

作者
郑利明;
展开▼
作者单位

上海交通大学;

展开▼
授予单位上海交通大学;
学科计算机科学与技术
授予学位硕士
导师姓名沈耀;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
数据处理; MapReduce集群; 并行度; 资源利用率;

相似文献

中文文献
外文文献
专利

提高任务并行度以优化MapReduce集群资源的利用

目录

摘要

著录项

相似文献

相关主题

期刊订阅