...
首页> 外文期刊>RSTI >Un protocole de sauvegarde/reprise coordonné pour les applications à flot de données reconfigurables
【24h】

Un protocole de sauvegarde/reprise coordonné pour les applications à flot de données reconfigurables

机译:用于可重配置数据流应用程序的协调备份/恢复协议

获取原文
获取原文并翻译 | 示例

摘要

La probabilité d'apparition d'une défaillance durant l'exécution d'une application parallèle de longue durée sur un grand nombre de processeurs est importante. Dans cet article, nous considérons l'étude d'un nouveau protocole de sauvegarde/reprise basé sur la construction coordonnée d'un état global cohérent, et dont la reprise après défaillance d'un processus ne nécessite qu 'un redémarrage partiel de certains autres processus. Ce protocole repose sur l'existence d'une représentation abstraite de l'exécution.%Fault tolerance protocols play an important role in today long runtime scientific parallel applications. The probability of a failure may be important due to the number of unreliable components involved during simulation. In this paper we present our approach and preliminary results about a new checkpoint/recovery protocol based on a coordinated scheme. One feature of this protocol is that fault recovery fault only requires a partial restart of other processes. This protocol is tightly coupled to the availability of an abstract representation of the execution.
机译:在大量处理器上执行长期并行应用程序时,发生故障的可能性很高。在本文中,我们考虑基于协调一致的全局状态的协同构造来研究新的备份/恢复协议,并且该协议在流程失败后的恢复仅需要部分重启其他协议即可处理。该协议基于执行的抽象表示。%容错协议在当今长时间运行的科学并行应用程序中发挥着重要作用。由于仿真过程中涉及的不可靠组件数量众多,因此故障的可能性可能很重要。在本文中,我们介绍了有关基于协调方案的新检查点/恢复协议的方法和初步结果。该协议的一个特征是故障恢复故障仅需要其他进程的部分重启。该协议与执行的抽象表示的可用性紧密相关。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号