首页> 中文学位 >大数据平台运行监控系统的研究与应用
【6h】

大数据平台运行监控系统的研究与应用

代理获取

目录

声明

致谢

摘要

1 引言

1.1 课题研究背景

1.1.1 研究背景

1.1.2 问题提出

1.2 国内外研究现状

1.2.1 Spark研究现状

1.2.2 Spark监控系统研究现状

1.3 论文组织结构

2 理论基础及相关技术

2.1 Spark框架

2.1.1 Spark简介

2.1.2 Spark系统架构

2.1.3 RDD弹性分布式数据集

2.2 Icinga监控

2.2.1 Icinga架构

2.2.2 Icinga监控策略

2.2.3 Icinga扩展

2.3 SNMP协议

2.3.1 SNMP管理框架

2.3.2 SNMP工作过程

2.3.3 SNMP协议Trap消息

2.4 日志监控

2.4.1 日志和日志文件

2.4.2 日志采集

2.5 本章小结

3 大数据平台健康指标研究及监控难点分析

3.1 大数据平台健康指标研究

3.1.1 集群指标研究

3.1.2 节点性能指标研究

3.1.3 作业运行指标研究

3.2 监控难点分析

3.2.1 作业运行监控代理分析

3.2.2 作业运行监控插件分析

3.3 本章小结

4 大数据平台运行监控系统设计与实现

4.1 总体结构

4.1.1 系统架构

4.1.2 监控流程

4.2 集群监控

4.2.1 集群监控代理

4.2.2 集群监控插件

4.3 节点性能监控

4.3.1 节点性能监控代理

4.3.2 节点性能监控插件

4.4 作业运行监控

4.4.1 作业运行监控代理

4.4.2 作业运行监控插件

4.5 告警

4.6 本章小结

5 实验

5.1 环境要求

5.2 环境搭建

5.2.1 配置本地环境

5.2.2 设置SSH无密码互联环境

5.2.3 配置Spark

5.3 实验结果

5.3.1 集群监控

5.3.2 节点监控

5.3.3 作业运行监控

5.4 本章小结

6 总结与展望

参考文献

作者简历及攻读硕士/博士学位期间取得的研究成果

学位论文数据集

展开▼

摘要

近年来,大数据技术迅猛发展,越来越多的互联网企业开始将项目部署在集群上。在实际应用中,集群资源丰富、环境复杂,保证集群的正常运行尤为重要,于是大数据平台运行监控系统应运而生。监控系统旨在实时监控集群、节点以及节点上计算作业的运行情况,及时发现异常并告警,保证调度任务的顺利完成。
  本文对集群监控关键技术进行了深入的研究与分析,针对实时监控集群健康状况的迫切需求,为解决现有系统在作业运行监控方面的局限及不足,重点研究了针对集群作业运行的监控方法,提出了基于snmp协议的监控代理和监控插件的实现方案,并搭建了大数据集群实验环境,通过实验验证了方案的有效性,结果表明本文的监控策略是有效可行的,可以保证大数据平台的稳定运行,满足集群监控实际需求。本文的主要工作及研究成果如下:
  (1)通过研究大数据平台运行状况,提出了集群健康指标体系,确定了针对集群、节点性能、作业运行三个层次的监控指标。
  (2)针对大数据集群硬件资源丰富的特点,提出了对集群性能指标的监控方案。该方案以Icinga监控平台为模型,通过监控插件和NRPE监控代理最终实现了对集群资源和节点性能的监控,并且能够通过邮件、短信等多种渠道实现故障告警,达到及时发现异常并处理的目的。
  (3)根据大数据集群分布式架构的特点,提出了针对作业运行的监控方案。该方案采用日志监控技术进行数据采集,通过snmp协议进行数据传输,结合Icinga扩展机制实现了与ROSS监控平台的集成,最终完成了对大数据平台中作业运行情况的全面监控。
  (4)针对集群资源动态扩展的需求,设计出一种可扩展的监控框架。该框架基于Icinga的插件扩展策略,结合自定义脚本监控方法,通过配置监控指标与监控插件的映射关系即可动态扩展监控指标,满足了对不同资源的监控需求。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号