基于Hadoop的云计算应用研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

伴随着近几年电子商务、社交网络等互联网应用的迅猛发展,作为信息产业界的一个重要创新云计算一经被提出就受到大家的关注。行业各巨头也都在云计算领域推出了自己的产品。在此之中,集Google的MapReduce和GFS的开源实现的Hadoop平台受到业界的好评。其主要子项目MapReduce和HDFS为分布式数据提供了可靠的计算和存储,但随着行业的发展,它们也会在某些应用场景中面临效率下降的问题,这将影响Hadoop平台的长足发展。本论文以Hadoop分布式文件系统HDFS和MapReduce编程模型作为主要的研究对象,主要内容为:
　　主要首先对云计算和Hadoop相关基础理论做了详细的介绍。其中涉及到云计算产生的背景概念、基本特征及部署模式,并详细分析云计算基础框架、体系结构以及涉及的关键技术。然后对Hadoop平台系统的产生背景,子项目以及框架进行介绍,重点分析了Hadoop的HDFS和MapReduce,包括对HDFS体系结构、文件读写以及数据的完整性措施等进行论述。在讨论MapReduce理论时,重点对编程模型的基本原理、计算流程以及MRv1和MRv2的实现框架进行了讨论与研究。
　　在介绍MapReduce实现框架基础上分析了其性能瓶颈:MapReduce的Mapper会产生大量结果,而这时的Reducer并没有被调用来合并这些中间结果,增加了网络传输大量中间结果的负担以及造成Reducer的闲置,在总体上降低了MapReduce的效率。本文针对这一问题提出了优化方案EMR,在其实现框架中,使用MPI技术使Reducer与Mapper并行运行处理中间结果,同时介绍了MPI相关使用和实现。
　　分析了HDFS在处理大量小文件时的性能瓶颈并针对这个问题提出了优化方案:使用HAR技术将小文件的元数据整合到大文件目录下,降低NameNode维护目录元数据的内存占用率,同时还对NameNode的元数据进行了研究和学习。
　　为了验证以上两方面的优化方案在性能上的提升,本文采用开源平台Hadoop来进行实验。第一个实验以运行时间作为衡量的标准,结果证本优化方案EMR的效率更高一些。第二个实验同样以Hadoop平台为基础进行的,通过结果对比可知,本文在处理大量小文件问题上能减少小文件的元数据的数量,提高NameNode执行效率。

著录项

作者
李娇龙;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科信息安全
授予学位硕士
导师姓名李建平;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
云计算; Hadoop平台; MapReduce编程模型; 数据完整性;

相似文献

中文文献
外文文献
专利

1. 云计算关键技术及基于Hadoop的云计算模型研究 [J] . 洪沙 ,杨深远 . 软件导刊 . 2010,第009期
2. 云计算关键技术及基于Hadoop的云计算模型研究 [J] . 洪沙 ,杨深远 . 软件导刊 . 2010,第009期
3. Hadoop分布式云计算在图书馆数字资源建设中的应用研究 [J] . 李志萍 . 内蒙古科技与经济 . 2017,第001期
4. Hadoop在移动云计算中的应用研究 [J] . 唐子民 . 山东通信技术 . 2012,第004期
5. 基于云计算的Hadoop大数据平台挖掘算法及实现研究 [J] . 张文明 . 无线互联科技 . 2021,第019期
6. Hadoop在移动云计算中的应用研究 [C] . Zimin Tang ,唐子民 . 2012全国无线及移动通信学术大会 . 2012
7. 基于Hadoop海量电信数据云计算平台研究与实现 [A] . 崔瑀 . 2019

基于Hadoop的云计算应用研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅