摘要:在高性能地学计算系统中,任务计算失败将会导致严重的后果,因此高性能地学计算必须具有可靠性保障.软件容错模型是提高并行计算容错能力的一种有效方法.针对传统基于检查点/回滚的容错策略存在资源浪费的不足,以并行地形分析为研究对象,基于软件容错模型提出一种基于邻域型算法的容错策略——N-ABFT(Neighboring-Algorithm Based Fault-Tolerant).针对邻域型地形因子,该容错策略为并行程序划分出的各数据块增加冗余的校验行与校验列.最后,结合N-ABFT算法,提出一种容错调度算法.实验表明,该方法有效地提高了系统容错能力,降低了错误检测开销.