首页> 中文学位 >MapReduce模型在Hadoop中的性能优化应用研究
【6h】

MapReduce模型在Hadoop中的性能优化应用研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 课题背景和意义

1.2 国内外研究现状

1.3 本文的主要内容与组织结构

第二章 相关技术

2.1 云计算技术

2.2 MapReduce编程模型

2.3 Hadoop云计算平台

2.4 本章小结

第三章 相似度计算中MapReduce模型I/O的优化

3.1 用户相似度计算研究

3.2 基于MapReduce模型实现用户相似度计算

3.3 MapReduce编程模型中I/O优化

3.4 本章小结

第四章 相似度计算中MapReduce任务的负载均衡优化

4.1 负载均衡

4.2 MapReduce任务的负载倾斜问题

4.3 MapReduce负载均衡优化

4.4 本章小结

第五章 实验和性能分析

5.1 构建Hadoop平台

5.2 实验结果分析

5.3 本章小结

第六章 总结与展望

6.1 总结

6.2 展望

参考文献

附录1 攻读硕士学位期间撰写的论文

致谢

展开▼

摘要

互联网的快速发展推动着数据信息呈现着几何式增长,数据占用空间从 GB发展到 TB甚至PB,飞速增长的数据规模标识着人类进入了大数据时代,大数据给人类带来的冲击不容小觑,用户从爆炸式数据中挖掘出有效信息的效率反而降低,此时,通过对用户数据进行相似度计算能够在一定程度上解决信息超载问题,从而提取出相对热门并有用的数据信息。
  Hadoop是当前应用最为广泛的云计算开源平台,MapReduce并行编程模型是云计算的关键技术之一。但在实际运用过程中,MapReduce模型计算过程中存在临时数据量大,Reduce任务分配不均会导致系统资源率低等问题。
  本文针对 MapReduce模型的应用,给出了一种利用 MapReduce编程模型的分布式计算能力来实现海量数据的相似度计算方法,从 I/O操作和负载均衡策略两个方面改进了MapReduce编程模型。通过在Map阶段后使用Stripe算法和SStripe算法完成对中间结果的本地聚集工作,以有效地缓解大量 I/O操作引发的磁盘阻塞和网络阻塞;通过在原有负载均衡策略基础上增加基于 Balance策略的改进算法,将本地聚集阶段产生的结果均匀分配,以减轻Reduce负载不均带来的网络开销。本文构建了一个基于Hadoop的实验平台,通过一系列对比实验验证了 I/O优化算法和改进的负载均衡策略在相似度计算应用中的可行性和有效性。

著录项

  • 作者

    陆蓉蓉;

  • 作者单位

    南京邮电大学;

  • 授予单位 南京邮电大学;
  • 学科 计算机应用技术
  • 授予学位 硕士
  • 导师姓名 宗平;
  • 年度 2015
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.01;
  • 关键词

    云计算; MapReduce模型; 性能优化; Hadoop平台;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号