Hadoop平台的MapReduce模型性能优化研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

大数据时代不但带来了数据量的迅猛增长、数据访问的并发压力,也对数据计算提出了更高的性能要求。云计算作为一种解决方案,被提出之后就得到了迅速发展。它近乎无限的存储能力和计算能力为互联网的发展指明了一个新的方向。Hadoop作为目前主流的云计算平台,也得到了广泛的认可和应用。
　　Hadoop是一种高可用性、高伸缩性、高扩展性的高性能大数据处理平台。同时它又兼具低成本和开源优势。它的实现有两个核心:HDFS(Hadoop Distributed File System)和MapReduce。HDFS是一个支持超大文件、流式访问,并具有高吞吐量的分布式文件系统。MapReduce是一个将所有并行实现透明化,只为用户提供简单接口,并具有快速并行计算能力的并行编程模型。
　　本文首先介绍了Hadoop平台的背景,包括它在技术背景上的产生与发展,在应用背景上的应用与前景。之后对 Hadoop的关键技术 HDFS、MapReduce和Scheduler进行研究分析。在此研究基础之上,本文指出MapReduce应用可在程序、参数和系统三个层面进行优化。程序和参数两个层面实现优化的可选项很多,本文在第三章对此作了详细阐述。
　　Hadoop在管理资源中将内存和CPU两种计算资源捆绑在一起,然后再根据任务类型分为Map Slot和Reduce Slot两种资源模型。这种管理机制实现简单,但是存在资源囤积现象,降低了资源利用率。本文在第四章对这两种计算资源进行松绑,并定义了memSlot和cpuSlot两种资源模型。在资源分配时,根据Map/Reduce的实际需求来派发两种资源。在7节点的PC集群上对21GB的日志数据进行处理,改进方案实现了内存利用率提升3.5％,CPU利用率提升4.3％,有效解决了资源囤积现象。
　　MapReduce应用在运行中会有大量的排序操作。这些排序大多又是迭代执行,性能消耗较大。本文第五章以此为切入,重新梳理了Shuffle阶段的执行流程。研究了以更加高效的计数排序代替快速排序。同时根据 Combiner的定义对 Shuffle执行进行分支。一个分支删去了spill阶段的分区内快速排序和combine阶段的归并排序,减少性能消耗。另一分支提前执行 Combiner,提升数据处理效率。两个分支在7节点的PC集群上对21GB的日志数据进行处理,都实现了约半小时的效率提升。

著录项

作者
姚洪哲;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科通信与信息系统
授予学位硕士
导师姓名阳小龙;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类程序语言、算法语言;
关键词
Hadoop平台; Mapreduce模型; 资源管理; 任务执行;

相似文献

中文文献
外文文献
专利

1. 基于Hadoop平台的MapReduce模型任务调度算法的研究与改进 [J] . 李霞 ,柯琦 . 数字技术与应用 . 2017,第002期
2. Hadoop平台中的MapReduce模型及优化 [J] . 杨朝辉 ,康磊 . 信息技术与信息化 . 2017,第012期
3. 基于Hadoop平台的MapReduce模型任务调度算法的研究与改进 [J] . 李霞1 ,柯琦2 . 数字技术与应用 . 2017,第002期
4. Hadoop平台下MapReduce模型调度算法研究 [J] . 刘伟 ,杜永文 ,吕晓剑 . 广西民族大学学报（自然科学版） . 2014,第003期
5. 基于Hadoop平台的电信大数据入库及查询性能优化研究 [J] . 陈娜 ,张金娟 ,刘智琼 . 移动通信 . 2014,第007期
6. MRI:面向并行迭代的MapReduce模型 [C] . Yang Shuangtao ,杨双涛 ,Ma Zhiqiang . 2016年全国高性能计算学术年会 . 2016
7. MapReduce模型的性能优化研究 [A] . 丁雷道 . 2017

Hadoop平台的MapReduce模型性能优化研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅