首页> 中文期刊> 《软件学报》 >一种利用并行复算实现的OpenMP容错机制

一种利用并行复算实现的OpenMP容错机制

         

摘要

基于并行复算的故障恢复技术,将故障恢复的计算任务分配至未发生故障的结点上并行执行,从而显著缩短复算时间,有效降低故障恢复开销,提高并行程序容错性能.基于该故障恢复技术,提出了一种针对OpenMP并行程序的容错机制PR-OMP,有效解决了分段复算、复算负载重分布等问题;此外,还扩展了传统编译数据流分析技术,提出了针对OpenMP并行程序的数据流分析技术,并基于该技术计算状态保存开销进行优化.设计实现了用于支持PR-OMP的编译工具GiFT-OMP,并通过实验证明了PR-OMP机制及其支持工具的有效性,评估并分析了其性能和可扩展性.%This paper proposes a fault tolerance approach for OpenMP programs, named PR-OMP, which makes use of a novel fault recovery scheme, parallel recomputing. By redistributing the workload of the failed thread to all the surviving threads, PR-OMP remarkably reduces the overhead for fault recovery. The paper discusses the key issues including program division, computational state saving, workload redistribution, and fault detection of PR-OMP and details concerning implementation. Furthermore, the paper also presents an extended data flow analysis for OpenMP, which is used to decrease the data amount of computational state saving. Through the experimental evaluation, it has been proven that this approach achieves a minor overhead in fault recovery.

著录项

  • 来源
    《软件学报》 |2012年第2期|411-427|共17页
  • 作者单位

    国防科学技术大学并行与分布处理国防科技重点实验室;

    湖南长沙410073;

    国防科学技术大学计算机学院软件研究所;

    湖南长沙410073;

    国防科学技术大学并行与分布处理国防科技重点实验室;

    湖南长沙410073;

    国防科学技术大学并行与分布处理国防科技重点实验室;

    湖南长沙410073;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 操作系统;
  • 关键词

    容错; OpenMP; 并行复算; 数据流分析;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号