首页> 中文学位 >基于YARN框架下并行化计算的研究
【6h】

基于YARN框架下并行化计算的研究

代理获取

目录

封面

声明

西北师范大学研究生学位论文作者信息

中文摘要

英文摘要

目录

1 绪论

1.1 研究背景

1.2 国内外研究状况

1.3 研究内容

1.4 论文架构

2 MapReduce的概述

2.1 MapReduce并行编程模式

2.2本章小结

3 YARN的概述

3.1 YARN的由来

3.2 YARN 框架原理及运作机制

3.3 YARN的工作流程

3.4 MapReduce与YRAN的比较

3.5本章小结

4 基于YRAN框架下对ID3算法的并行化设计

4.1决策树ID3简介

4.2 ID3算法的并行化设计

4.3基于YARN的ID3算法的流程图

4.4基于YARN的ID3算法并行化实现

4.5本章小结

5 Hadoop系统的实现

5.1 Hadoop环境的搭建

5.2实验结论

5.3本章小结

6 总结与展望

6.1论文总结

6.2展望工作

参考文献

致谢

展开▼

摘要

Apache开源组织开发的Hadoop框架中最核心的设计就是MapReduce编程模型和HDFS分布式文件系统。MapReduce为海量的数据提供了并行化计算,而HDFS为海量的数据提供了存储。
  MapReduce是一种并行编程模型,它主要用于海量数据集的并行运算。在最初推出的几年里,这种并行编程模型取得了众多的成功案例,在业界也得到了广泛的支持和肯定,但是随着分布式系统集群的规模不断增长和其他工作负荷的剧增,原框架的问题也就渐渐浮出水面。MapReduce编程模型在现有的机制下需要对它做出大规模的调整来修复其在内存消耗,扩展性,线程模型,可靠性和性能上的缺陷。在过去的几年中,Hadoop团队做了一些bug的修复,但是随着修复的成本越来越高,这表明对原框架作出改变的难度越来越大。所以Apache开源组织为了促进Hadoop框架走的更远,在根本上解决影响MapReduce性能的关键性问题,从0.23.0版本开始,对旧的MapReduce框架进行完全重构,在结构上发生了根本性的变化。Apache开源组织将重构后的MapReduce框架命名为Hadoop2.0或者叫YARN。
  本文通过详细的阐述了MapReduce的编程思想,工作原理,具体步骤和方法。接着又详细的阐述了YARN编程模式,以及 YARN框架机构,工作原理,具体步骤和方法。并将YARN与MapReduce进行了比较,研究了MapReduce的不足和缺点,并概括了YRAN与MapReduce的不同之处。最后,通过搭建Hadoop集群环境,再基于YARN框架进行了MapReduce并行计算的实验,通过实验证明了,基于 YARN框架下并行计算的高效性,可靠性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号