首页> 中文学位 >基于检查点优化的进程级容错系统设计与实现
【6h】

基于检查点优化的进程级容错系统设计与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

插图索引

表格索引

符号对照表

缩略语对照表

目录

第一章 绪论

1.1 研究背景

1.2 国内外研究现状

1.3 研究思路

1.4 论文结构安排

第二章 基于检查点的容错系统基本理论

2.1 进程级容错系统概述

2.2 BLCR

2.3 分布式系统中检查点协议理论

2.4 本章小结

第三章 进程级容错系统的设计

3.1 进程级容错系统架构

3.2 检查点间隔模型的优化

3.3 局部阻塞一致性协议

3.4 本章小结

第四章 进程级容错系统的实现及测试分析

4.1 进程级容错系统的实现

4.2 实验测试结果及对比分析

4.3 本章小结

第五章 总结和展望

5.1 总结

5.2 展望

参考文献

致谢

作者简介

展开▼

摘要

在大型计算环境中,故障的发生不可避免,而由此造成的损失也是巨大的。容错技术的应用在一定程度上能够减少故障的发生带来的影响,提高系统可靠性。进程级的容错则是直接针对运行任务本身容错机制,能够保证任务运行的连续性和故障发生后的快速恢复,其中检查点设置与回卷恢复技术是一种常用方法。
  本文所设计的进程级容错系统即是基于检查点实现的。为了满足系统需求,需要解决两个主要问题,一是检查点设置时间问题,一是保证检查点状态一致性问题。传统的静态等间距检查点间隔模型能够初步完成检查点的设置,但由于它不能适时的根据故障概率分布的变化而动态的对检查点间隔时间做出调整,所以在实际的应用中会导致较大的开销。为此,本文提出了动态非等间距检查点间隔模型,此模型能动态的调整检查点间隔时间,较之静态方法降低了开销。传统的全局阻塞协议能够简单保证检查点状态一致性,但是在进程数较多时,由阻塞等待引起的时延却较大。考虑到进程间的通信在规模、范围、时间方面具有随机性和不确定性,本文提出对进程采用分组机制,做到组内通信,组间无通信,在做检查点时,组间使用无阻塞协议,组内使用阻塞协议,从而形成一个局部阻塞的过程,即局部阻塞一致性协议。
  通过以上两方面优化,本文所设计的容错系统较之传统方法能够更好的适应动态复杂的大型计算环境容错需求。为验证本文提出方法的正确性和有效性,设计和实现了一个基于检查点优化的进程级容错系统,实验结果表明,本系统能够在解决多米诺效应,一致性问题的前提下,进一步降低开销,减少任务实际执行时间,提高性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号