...
机译:通过检查点/重启在HPC集群中进行作业迁移
CIEMAT Dept Technol Avda Complutense 40 Madrid 28840 Spain;
Northeastern Univ Dept Elect & Comp Engn 360 Huntington Ave Boston MA 02115 USA;
Checkpoint-restart; DMTCP; Dynamic job migration; Exascale clusters;
机译:具有网络意识的选择性作业检查点和迁移,以增强多集群系统中的协同分配
机译:BlobCR:在IaaS云上针对HPC应用程序的基于虚拟磁盘的检查点重启
机译:关于高可靠性HPC集群系统的快速检查点机制的思考
机译:Ghost进程:在Linux群集中实现进程复制,迁移和检查点/重新启动的可靠基础
机译:扩展大型HPC的透明检查点重启范围
机译:无监督的基于KPIS的HPC数据中心群体
机译:Ghost进程:在Linux群集中实现进程复制,迁移和检查点/重新启动的良好基础