机译:在MPI应用程序中评估和扩展用户级别的容错能力
Lawrence Livermore Natl Lab, CASC, Livermore, CA USA;
Lawrence Livermore Natl Lab, Phys & Life Sci Directorate, Livermore, CA USA;
Lawrence Livermore Natl Lab, CASC, Livermore, CA USA;
Lawrence Livermore Natl Lab, CASC, Livermore, CA USA;
Lawrence Livermore Natl Lab, LC, Livermore, CA USA;
Lawrence Livermore Natl Lab, Ctr Appl Sci Comp, Scalabil Team, Livermore, CA USA;
Los Alamos Natl Lab, Los Alamos, NM USA;
MPI; fault tolerance; failure recovery models; checkpointing; molecular dynamics simulation;
机译:EREINIT:适用于批量同步MPI应用程序的可扩展且高效的容错能力
机译:万亿级系统中MPI应用程序的容错能力:ULFM解决方案
机译:基于通道内存的MPI应用程序的容错能力
机译:扩展了容错模型的MPI阶段模型
机译:HPC系统上MPI应用程序的协调检查点/重启过程容错能力。
机译:通过无线传感器网络中的容错功能优化服务组合应用程序的可靠性和性能
机译:ER EINIT:对批量同步MPI应用的可扩展和高效的容错