North Carolina State University.;
Checkpoint/Restart; HPC; RAS; Reliability; Resiliency;
机译:基于增强的Sender的消息记录,用于减少分布式系统中的强制检查点开销
机译:减少嵌入式处理器系统的指令预取中的功耗和能源开销
机译:使用离散事件仿真来评估分布式数据流处理系统协调检查点对分布式数据流处理系统的影响
机译:利用3D PC RAM技术减少未来Exascale系统的检查点开销
机译:HPC系统上MPI应用程序的协调检查点/重启过程容错能力。
机译:降低系统总开销的两级增量检查点恢复方案
机译:利用3D PCRAM技术减少未来Exascale系统的检查点开销
机译:为Exascale系统保持检查点/重启可行