High performance computing; MPI; fault tolerance; send-determinism; failure containment;
机译:发现过程模型以在事件日志不确定的情况下分析应用程序故障
机译:具有应用程序级检查点和消息记录功能的弹性MPI应用程序的本地回滚
机译:具有MPI阶段的批量同步应用程序的故障恢复
机译:HydEE:用于大型发送确定性MPI应用程序的无事件记录的故障排除
机译:大规模系统中基于事件预测的失败
机译:LogEvent2vec:物联网中大型日志的基于LogEvent到矢量的异常检测
机译:HydEE:用于大型发送确定性MPI应用程序的无事件记录的故障排除