首页> 中文学位 >基于Hadoop的云计算应用研究
【6h】

基于Hadoop的云计算应用研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪 论

1.1 研究背景

1.2 研究现状

1.3 本论文的主要工作

1.4 本论文的结构安排

第二章 云计算基础理论

2.1 云计算概念

2.2 云计算的基本特征

2.3 云计算的服务模式

2.4 云计算的部署模式

2.5 云计算的架构

2.6 本章小结

第三章 Hadoop基础理论

3.1 Hadoop平台系统

3.2 Hadoop分布式文件系统HDFS

3.3 Hadoop的MapReduce基础

3.4 本章小结

第四章 MapReduce优化设计与实现

4.1 MapReduce性能瓶颈分析

4.2 MPI分析

4.3 优化方案介绍

4.4 优化方案设计与实现

4.5 实验平台搭建与系统配置

4.6 实验结果分析

4.7 本章小结

第五章 HDFS优化设计与实现

5.1 HDFS小文件性能瓶颈分析

5.2 现有小文件问题解决方案

5.3 优化方案介绍

5.4 优化方案设计与实现

5.5 实验平台搭建与系统配置

5.6 实验结果分析

5.7 本章小结

第六章 总结与展望

6.1 本文总结

6.2 下一步工作的展望

致谢

参考文献

攻硕期间取得的研究成果

展开▼

摘要

伴随着近几年电子商务、社交网络等互联网应用的迅猛发展,作为信息产业界的一个重要创新云计算一经被提出就受到大家的关注。行业各巨头也都在云计算领域推出了自己的产品。在此之中,集Google的MapReduce和GFS的开源实现的Hadoop平台受到业界的好评。其主要子项目MapReduce和HDFS为分布式数据提供了可靠的计算和存储,但随着行业的发展,它们也会在某些应用场景中面临效率下降的问题,这将影响Hadoop平台的长足发展。本论文以Hadoop分布式文件系统HDFS和MapReduce编程模型作为主要的研究对象,主要内容为:
  主要首先对云计算和Hadoop相关基础理论做了详细的介绍。其中涉及到云计算产生的背景概念、基本特征及部署模式,并详细分析云计算基础框架、体系结构以及涉及的关键技术。然后对Hadoop平台系统的产生背景,子项目以及框架进行介绍,重点分析了Hadoop的HDFS和MapReduce,包括对HDFS体系结构、文件读写以及数据的完整性措施等进行论述。在讨论MapReduce理论时,重点对编程模型的基本原理、计算流程以及MRv1和MRv2的实现框架进行了讨论与研究。
  在介绍MapReduce实现框架基础上分析了其性能瓶颈:MapReduce的Mapper会产生大量结果,而这时的Reducer并没有被调用来合并这些中间结果,增加了网络传输大量中间结果的负担以及造成Reducer的闲置,在总体上降低了MapReduce的效率。本文针对这一问题提出了优化方案EMR,在其实现框架中,使用MPI技术使Reducer与Mapper并行运行处理中间结果,同时介绍了MPI相关使用和实现。
  分析了HDFS在处理大量小文件时的性能瓶颈并针对这个问题提出了优化方案:使用HAR技术将小文件的元数据整合到大文件目录下,降低NameNode维护目录元数据的内存占用率,同时还对NameNode的元数据进行了研究和学习。
  为了验证以上两方面的优化方案在性能上的提升,本文采用开源平台Hadoop来进行实验。第一个实验以运行时间作为衡量的标准,结果证本优化方案EMR的效率更高一些。第二个实验同样以Hadoop平台为基础进行的,通过结果对比可知,本文在处理大量小文件问题上能减少小文件的元数据的数量,提高NameNode执行效率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号