首页> 中文学位 >一种集群监控容错系统的设计与实现
【6h】

一种集群监控容错系统的设计与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1研究背景及意义

1.2本文主要研究内容

1.3本文章节安排

第二章 集群监控容错系统总体设计

2.1系统主要功能需求

2.2总体框架设计

2.3软件体系架构设计

2.4本章小结

第三章 集群监控

3.1集群监控系统的研究现状

3.2集群监控模块设计

3.3集群监控模块的实现

3.4效果展示

3.5本章小结

第四章 集群系统容错

4.1集群系统容错技术研究

4.2集群容错模块总体设计

4.3计算节点容错设计

4.4面向应用的作业检查点设计

4.5实验与分析

4.6本章小结

第五章 结束语

5.1工作总结

5.2工作展望

致谢

参考文献

攻硕期间取得的研究成果

展开▼

摘要

目前,集群技术是当今高性能计算系统的一个重要研究方向,集群系统以其高性价比、高扩展性、高可用性的特点,迅速发展成为高性能计算的一个重要解决方案,在石油物探行业得到广泛应用。
  本文所研究的是面向地震数据处理的应用集群系统,随着该集群中节点的数目和提交运行的作业数目越来越多,集群系统的监控和管理成了一个重大问题。伴随集群系统规模的不断扩大,系统发生故障的概率也随之增长,加上地震数据处理作业往往数据量都很大,作业执行时间也很长,如果发生故障造成作业运行失败,将会浪费大量的系统计算资源和时间资源。因此研究该应用集群系统的容错技术具有十分重要的意义。
  本文研究设计的集群监控容错系统是该地震数据处理应用集群系统的重要支持系统,是专门针对地震数据处理特点开发的特殊辅助系统。针对上文提出的相关问题,本论文的主要工作包括:
  第一,研究了现有的集群监控系统,设计并实现了面向地震数据处理平台集群系统的监控模块,完成了对整个应用集群系统的监控信息的采集、汇聚和显示等应用的具体实现。监控模块主要包括对集群节点信息和作业信息的监控,为系统管理员和用户进行集群管理和监控提供了方便。
  第二,设计并实现了利用心跳包技术进行节点故障检测的集群系统容错功能,并且针对该地震数据处理的具体应用完成了节点故障后续处理的相关工作。该集群节点故障检测和处理的功能为本文设计的利用应用级作业检查点实现作业故障容错功能提供了基础。
  第三,在研究现有检查点技术的基础上,并且针对地震数据处理作业的特点和地震数据处理流程的特殊性,设计并实现了基于地震数据单元的应用级作业检查点设置与回卷恢复功能,该功能结合节点容错功能,能够实现集群作业出现故障后的自动容错。通过实验测试验证了该应用级作业检查点的可行性,提高了集群系统的可用性,能够使作业在遇到故障时从检查点开始继续执行作业,减少了作业重复执行时间,避免了系统大量的计算资源和时间的浪费。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号