首页> 中文会议>第十七届全国容错计算学术会议 >基于消息传递的高性能计算系统故障定位框架

基于消息传递的高性能计算系统故障定位框架

摘要

为了解决高性能计算系统的故障定位问题,提出了基于消息传递的故障定位框架(MPFL),包括基于树形的故障检测算法(TBFD)和故障分析算法(TBFA).首先,在高性能计算系统的作业初始化时,对参与计算的节点进行树形划分,生成故障定位树(FLT),并将故障定位任务分布到计算节点上;然后,当节点检测到故障信息时,使用TBFD算法分析作业的FLT结构,根据负载平衡、性能开销等因素选择负责接收与分析故障信息的节点;最后,节点使用TBFA算法对接收到的故障信息集进行推理得出故障集,TBFA算法使用了基于规则的事件关联,并基于消息传递设计了轻量级的主动探测,两种方式相结合可提高故障分析的准确性.实验结果表明,本文所提的故障定位框架MPFL是有效的.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号