首页> 中文学位 >基于Hadoop的MapReduce计算模型优化与应用研究
【6h】

基于Hadoop的MapReduce计算模型优化与应用研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1研究背景与意义

1.2研究现状

1.3本论文的主要工作

1.4 论文结构安排

第二章 Hadoop基础框架

2.1 Hadoop框架

2.2 Hadoop集群运作原理

2.3 MapReduce计算框架

2.4 HDFS分布式文件系统

2.5 本章小结

第三章 MapReduce优化设计与实现

3.1 MapReduce性能瓶颈

3.2 MPI并行技术

3.3 优化方案设计

3.4 分布式环境部署

3.5 实验结果与分析

3.6 本章小结

第四章 MapReduce优化模型的应用

4.1平台架构设计

4.2总体方案

4.3 数据计算原理

4.4 系统设计与实现

4.5 本章小结

第五章 结论与展望

5.1 总结

5.2 展望

致谢

参考文献

附录1攻读硕士学位期间发表的论文

展开▼

摘要

随着互联网的迅速发展,特别是近年来,突飞猛进的移动互联网和电子商务的发展,网络已经进入了互联网+时代。“互联网+”时代具有如下特点:大规模数据集,多终端等。企业建立一套IT系统不仅需要购买硬件等基础设施,还需要专人维护。当企业的规模扩大时还要继续升级各种软硬件设施以满足需要,传统数据处理方法存在数据存储成本过高、数据管理效率低、可靠性较低、并行处理程序编写复杂等不足。尤其是对于中小企业,计算机等硬件和软件本身并非所需,提高计算和存储效率才是其真正的期盼。
  云计算通过整合服务器集群中的闲散资源,为大数据分布式存储、并行计算等提供了一个有效解决方案。Hadoop以其开源、可伸缩与低成本等优势,已成为一种主流的云计算平台。但是,在某些应用场景,Hadoop也存在一定的缺陷。例如MapReduce的Mapper会产生大量中间结果,而这时的Reducer并没有被调用来合并这些中间结果,增加了网络传输大量中间结果的负担以及造成 Reducer的闲置,总体上降低了MapReduce的效率。
  本文通过对MapReduce计算模型的工作原理、运行机制和容错机制的研究,提出了一种MapReduce计算模型优化方案。即在Yarn框架中,使用MPI技术实现Reducer与Mapper并行处理中间结果。通过实验可知,本方法提升了MapReduce计算效率,降低了计算与存储的耦合性。另外,通过应用实例——重点污染物排放量测算系统,在不改变该系统的基础上,利用Sqoop数据迁移技术,结合优化后的MapReduce计算模型和存储技术的优点,设计并实现了一种关系型数据库和分布式数据库并存的方案,以期解决关系数据库的存储和访问效率等问题,在实现存储和计算分离的同时降低了中小企业的硬件开支。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号