首页> 中文学位 >基于Eucalyptus云平台的Hadoop集群研究
【6h】

基于Eucalyptus云平台的Hadoop集群研究

代理获取

摘要

云计算(Cloud Computing)是当前国内外的研究热点之一,是并行计算、网格计算和分布式计算的发展,已成为一种新型的商业计算模式,很多大公司都投入了这一领域的研究,如Google,IBM,微软等等。云计算通过互联网将超大规模的计算、存储资源整合起来,形成一个虚拟的计算资源池并以服务的形式按需提供给用户,使得人们可以方便地通过网络获取强大的计算能力、存储能力以及基础设施。云计算可以有效解决分析与处理海量数据时面临的问题,并提供了可靠性高、可扩展的数据处理存储中心,在降低了终端设备要求的同时提高了处理数据的能力。因此将消耗大量计算资源的复杂计算如海量数据的处理,通过网络分布到多节点上进行计算的方式成为新的有效的解决方案。
   开源的分布式计算Hadoop系统已经为云计算的具体实现提供了宝贵的经验。Hadoop是Apache开源组织的一个分布式计算开源框架,已在亚马逊、Facebook、百度、Yahoo等多个大型网站上得到应用。Hadoop框架中最核心的设计是MapReduce和HDFS。MapReduce的思想是“任务的分解与结果的汇总”,即首先将一个任务分解为多个子任务,然后把子任务调度到多个集群节点上执行,最后再将结果加以汇总。HDFS是Hadoop分布式文件系统的缩写,为分布式计算存储提供了底层支持。
   本文研究了云计算的的相关理论、云计算的特点和优势、云计算的关键技术及开源私有云计算平台Eucalyptus,探索了分布式开源框架Hadoop的运行机制和原理。在此基础上研究MapReduce编程模型及其编程方法和建立在Hadoop上的数据仓库基础构架Hive,进一步提出了基于Hadoop的MapReduce分布式编程模型和基于Hive来处理海量数据级别的日志文件的方法。本文还利用开源私有云计算平台Eucalyptus搭建了实验室的私有云,以及搭建了分布式计算平台Hadoop,并将Hadoop集群整合到Eucalyptus私有云上。本文还深入研究了Hadoop集群的动态伸缩方法,主要包括Hadoop集群节点的动态增加及增加节点后的负载均衡方法,以及从集群中移除节点的研究,并提出了心跳检测策略和负载均衡策略,从而提出了一种基于Eucalyptus云上的Hadoop集群弹性伸缩系统设计方案,可以根据一些策略,如心跳检测和负载均衡策略进行弹性伸缩而无需人工干预,并实现了整个弹性伸缩框架原型系统。本文关于开源软件Eucalyptus、Ganglia和Hadoop三者相结合的研究,形成了一套商业化的云计算产品解决方案和实现方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号