首页> 中文会议>第三届中国国家网格学术年会 >提高集群系统稳定性的自动化管理方法

提高集群系统稳定性的自动化管理方法

摘要

为了提升网格节点集群平台的稳定性,提出了一种应用于大规模集群系统的自动管理方法,将该方法部署到本单位曙光5000集群上,取得了较好运行效果。分析了曙光5000使用过程中发生的3类故障模式:计算节点死机,NIS客户端系统失效和违规作业;根据每类故障的发展特征,实现了处理这些故障模式的系统故障自动管理方法;实际运行效果表明该方法能够提高作业成功率,降低计算节点失效率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号