GEMS: A Job Management System for Fault Tolerant Grid Computing

机译：宝石：容错网格计算的工作管理系统

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

This paper describes the Grid Enactor and Management Service (GEMS), a system supporting submission, monitoring, and restart of Grid jobs. GEMS supports the detection of individual job process failures for parallel message-passing applications. Failed jobs can be canceled and restarted, either on the same local resource if sufficient nodes are available in a restart queue, or on another resource. GEMS requires that a local resource manager support certain fault-detection and reporting capabilities. These capabilities are implemented in DQ, a prototype cluster scheduler.

机译：本文介绍了网格监控器和管理服务（GEMS），支持提交，监控和重新启动网格作业的系统。 GEMS支持检测并行消息传递应用程序的单个作业过程故障。如果RESTART队列中的足够节点或另一个资源，则可以在相同的本地资源上取消并重新启动失败作业并重新启动作业。宝石要求本地资源管理器支持某些故障检测和报告功能。这些功能在DQ中实现了一种原型群集调度程序。

著录项

来源
《Advanced Simulation Technologies Conference》|2004年||共6页
会议地点
作者
Satish Tadepalli; Calvin Ribbens; Srinidhi Varadarajan;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类 TP302-53;
关键词
Grid computing; Fault tolerance; Job migration;

机译：网格计算;容错;作业迁移;

相似文献

外文文献
中文文献
专利

1. Scalable, fault-tolerant job step management for high-performance systems [J] . D. Solt, J. Hursey, A. Lauria, IBM Journal of Research and Development . 2020,第3a4期

机译：高性能系统可扩展，容错工作步骤管理
2. IMPROVING FAULT TOLERANT RESOURCE OPTIMIZED AWARE JOB SCHEDULING FOR GRID COMPUTING [J] . K. Nirmala Devi, A. Tamilarasi Journal of computer sciences . 2014,第5期

机译：改进网格计算的容错资源优化的AWARE作业计划
3. IMPROVING FAULT TOLERANT RESOURCE OPTIMIZED AWARE JOB SCHEDULING FOR GRID COMPUTING | Science Publications [J] . A. Tamilarasi, K. Nirmala Devi Journal of computer sciences . 2014,第5期

机译：网格计算的改进容错资源优化的AWARE作业计划|科学出版物
4. GEMS: A Job Management System for Fault Tolerant Grid Computing [C] . Satish Tadepalli, Calvin Ribbens, Srinidhi Varadarajan Advanced Simulation Technologies Conference . 2004

机译：宝石：容错网格计算的工作管理系统
5. Fault tolerant resource management in mobile computing systems. [D] . Prakash, Ravi. 1996

机译：移动计算系统中的容错资源管理。
6. An improved ant colony optimization algorithm with fault tolerance for job scheduling in grid computing systems [O] . Hajara Idris, Absalom E. Ezugwu, Sahalu B. Junaidu, -1

机译：网格计算系统中一种具有容错能力的蚁群优化算法
7. IMPROVING FAULT TOLERANT RESOURCE OPTIMIZED AWARE JOB SCHEDULING FOR GRID COMPUTING [O] . K. Nirmala Devi, A. Tamilarasi 2015

机译：改进容错资源优化的网格计算aWaRE JOB调度

GEMS: A Job Management System for Fault Tolerant Grid Computing

摘要

著录项

相似文献

相关主题

期刊订阅