首页> 外文期刊>電子情報通信学会技術研究報告. ディペンダブルコンピュ-ティング. Dependable Computing >Consideration about Fast Checkpointing Mechanism for High-reliable HPC Cluster System
【24h】

Consideration about Fast Checkpointing Mechanism for High-reliable HPC Cluster System

机译:关于高可靠性HPC集群系统快速检查点机制的思考

获取原文
获取原文并翻译 | 示例
           

摘要

Cluster systems are getting widely used because of good performance / cost ratio. However, little attention has been paid for their reliability so far. As the number of commodity components in a cluster system gets increased, it is indispensable to support reliability by system software. We propose a hierarchical checkpointing in this paper. We explain its mechanism, and show preliminary experimantal results. In the experiment, the proposed mechanism is prototyped by modifying SCore cluster system, which is a parallel programming environment with checkpoint mechanism and is open to public.
机译:由于性能/成本比率良好,集群系统得到广泛使用。 但是,到目前为止,他们的可靠性很少关注。 随着集群系统中的商品组件的数量增加,系统软件支持可靠性是必不可少的。 我们提出了本文的分层检查点。 我们解释了其机制,并显示了初步的实验结果。 在实验中,所提出的机制是通过修改分数集群系统的原型设计,这是一个具有检查点机制的并联编程环境,公共开放。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号