首页> 外文会议>Advanced Simulation Technologies Conference >GEMS: A Job Management System for Fault Tolerant Grid Computing
【24h】

GEMS: A Job Management System for Fault Tolerant Grid Computing

机译:宝石:容错网格计算的工作管理系统

获取原文

摘要

This paper describes the Grid Enactor and Management Service (GEMS), a system supporting submission, monitoring, and restart of Grid jobs. GEMS supports the detection of individual job process failures for parallel message-passing applications. Failed jobs can be canceled and restarted, either on the same local resource if sufficient nodes are available in a restart queue, or on another resource. GEMS requires that a local resource manager support certain fault-detection and reporting capabilities. These capabilities are implemented in DQ, a prototype cluster scheduler.
机译:本文介绍了网格监控器和管理服务(GEMS),支持提交,监控和重新启动网格作业的系统。 GEMS支持检测并行消息传递应用程序的单个作业过程故障。如果RESTART队列中的足够节点或另一个资源,则可以在相同的本地资源上取消并重新启动失败作业并重新启动作业。宝石要求本地资源管理器支持某些故障检测和报告功能。这些功能在DQ中实现了一种原型群集调度程序。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号