首页> 中文学位 >提高任务并行度以优化MapReduce集群资源的利用
【6h】

提高任务并行度以优化MapReduce集群资源的利用

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1研究背景及意义

1.2国内外研究现状

1.3主要研究内容

1.4论文结构

第二章 本文相关技术介绍

2.1 MapReduce编程模型

2.2 Hadoop分布式文件系统

2.3 Hadoop MapReduce介绍

2.4 Hadoop RPC框架介绍

2.5本章小结

第三章 细粒度任务并行策略的设计

3.1概要

3.2子数据块的设计

3.3 MapReduce任务的设计

3.4 Pre-shuffle的设计

3.5本章小结

第四章 细粒度任务并行策略的实现

4.1子数据块的实现

4.2子任务的实现

4.3 Pre-shuffle的实现

4.4本章小结

第五章 细粒度任务并行策略的实验评估

5.1实验环境的搭建

5.2扩展性的实验评估

5.3在不同CPU个数下的性能实验评估

5.4资源利用率的实验评估

5.5 Pre-shuffle的实验评估

5.6本章小结

参考文献

致谢

攻读硕士学位期间已发表或录用的论文

展开▼

摘要

作为一种编程模型,MapReduce已经成为处理大规模数据处理问题的一个重要手段。目前,MapReduce已被广泛地应用于Web搜索,机器学习,电子商务等领域。Hadoop,作为MapReduce的一种开源实现,已经被广泛地用到离线大数据处理。目前因为对处理海量数据的要求持续增长,Hadoop集群的规模也变的越来越大。为了管理大规模集群,人们试图去提高集群的效率水平,用更强大的计算节点和水平扩展去构建的集群。这时高效地利用集群资源将变得更有挑战性。在研究Hadoop的过程中,发现在Hadoop的数据处理的并行粒度是比较大的,同时它不能充分利用多核系统的优势。这些问题会降低整个集群资源利用率和集群效率。为此,本文提出一种更加细粒度的数据处理策略,在增加系统负担的情况下,对HDFS的数据块进一步地进行分片,同时,在MapReduce的任务下产生多线程,充分利用多核系统,进一步地进行以提高任务执行的并行度,从而优化集群资源利用率和提升作业执行的速度。我们把这个策略作为一个功能模块实现在开源项目Hadoop上,并且这个的实现并不会影响Hadoop原来的执行策略。为了验证本文提出的这个策略,我们在搭建了Hadoop集群,并做了广泛的实验。实验结果显示本文提出的策略不仅能优化MapReduce集群的资源利用率,还能缩短作业的完成时间至三倍。

著录项

  • 作者

    郑利明;

  • 作者单位

    上海交通大学;

  • 授予单位 上海交通大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 沈耀;
  • 年度 2015
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    数据处理; MapReduce集群; 并行度; 资源利用率;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号