首页> 中文学位 >Hadoop集群实时性能监控及I/O性能优化研究
【6h】

Hadoop集群实时性能监控及I/O性能优化研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 绪 论

1.1 研究背景和意义

1.2 国内外研究现状

1.3 本文的研究内容

1.4 本文的章节安排

第2章 Hadoop简介

2.1 Hadoop概述

2.2 Hadoop体系结构

2.3 Hadoop分布式基本原理

2.4 Hadoop I/O代价分析

2.5 本章小结

第3章 Hadoop实时性能监控系统

3.1 Hadoop集群监控需求

3.2 三个功能模块

3.3 实现过程

3.4 本章小结

第4章 Hadoop Join算法的评估与改进

4.1 三种Hadoop Join算法

4.2 实验环境

4.3 结果分析

4.4 改进的Hadoop Join算法

4.5 算法评估

4.6 本章小结

总结与展望

参考文献

附录A(攻读学位期间所发表的学术论文目录)

致谢

展开▼

摘要

随着大数据时代的到来,作为海量数据处理的代表技术,Hadoop受到了越来越广泛的关注。Hadoop实现了分布式文件系统 HDFS和分布式计算框架MapReduce,其高扩展性,高容错性以及低成本的优势使得它广泛应用于数据中心,社交媒体,日志分析等大数据应用中。如今,很多公司所部署的Hadoop集群节点数都在千个以上,有的甚至上万。面对如此多的节点个数,Hadoop集群管理起来也越发困难。因此如何搭建 Hadoop集群监控系统对集群的节点进行监控以确保集群正常高效的运行显得尤为重要。Hadoop集群的实时性能监控系统成为目前研究的重点之一。目前虽然有很多的第三方监控工具实现了对Hadoop集群的监控,但存在一些局限性,或是监控指标不全面,或者是对数据的收集分析和展示无法做到同步,即不能进行实时监控。
  本文的实时监控技术利用开源的Ganglia实时监控系统获取基本的监控指标,利用Hadoop所支持的JMX接口来获取Hadoop特有的一些监控指标,在Hadoop集群运行任务时实现较为全面的性能监控。本文的监控技术还并集成了Nagios作为警示报警模块,对集群的故障与错误进行预警,同时采用了MongoDB来代替传统的Ganglia数据库RRD作为整个实时性能监控系统的数据库,可以长期保存监控数据的功能,以便在日后做决策分析时进行过期数据的分析。利用开发完成的Hadoop实时性能监控系统监控了三种Hadoop Join任务(Map Join,Reduce Join,Semi Join)的指标数据,并为其建立整个MapReduce任务的I/O开销模型。为MapReduce内部框架的I/O开销分析提供了好的视角。利用收集的数据作为依据,从监控的角度评估了算法的效率,并对比监控数据以此作为提示对Jo in算法进行改进,体现了实时性能监控工具的实际应用价值。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号