首页> 中文学位 >分布式系统中基于检查点容错服务的设计与实现
【6h】

分布式系统中基于检查点容错服务的设计与实现

代理获取

目录

声明

摘要

论文图表索引

第一章 绪论

1.1 研究背景

1.1.1 分布式系统容错

1.1.2 检查点/恢复容错技术

1.1.3 分布式系统的现场失效数据

1.1.4 分布式系统的错误相关性分析

1.2 本文研究内容和工作

1.3 本文组织结构

第二章 研究现状及相关技术

2.1 分布式系统的容错研究现状

2.1.1 全局检查点容错技术

2.1.2 消息缓存日志技术

2.2 检查点/恢复的容错技术研究现状

2.2.1 检查点/恢复机制的技术实现

2.2.2 分布式系统的检查点/恢复算法

2.2.3 检查点放置策略研究现状

2.3 系统失效数据关联性分析研究现状

2.3.1 时间相关性分析

2.3.2 空间相关性分析

2.4 尚存在的问题

2.5 本章小结

第三章 检查点/恢复容错服务

3.1 容错服务概述

3.2 问题建模

3.2.1 模型假设

3.2.2 模型描述与符号说明

3.2.3 问题描述

3.3 事件关联性分析与系统节点分组

3.3.1 事件相关性分析

3.3.2 系统节点分组

3.4 相关节点事件合并与系统事件合并

3.5 主动检查点周期求解

3.6 容错服务检查点放置策略

3.7 本章小结

第四章 检查点/恢复容错服务实现

4.1 单进程检查点/恢复的实现

4.2 分布式系统检查点/恢复原型系统

4.3 本章小结

第五章 检查点/恢复容错服务的实验分析

5.1 实验方法

5.2 实验环境

5.3 FTA事件格式分析以及数据预处理

5.4 模型参数的评估以及合理性分析

5.4.1 时间窗参数θ值评估

5.4.2 关联度阈值Tconst评估

5.4.3 拟合参数M评估

5.4.4 检查点代价Tgcp评估

5.4.5 回退因子K评估

5.5 Liu-Raga检查点策略参数评估

5.6 实验结果与分析

5.7 本章小结

第六章 总结及未来工作

6.1 总结

6.2 未来工作

致谢

参考文献

展开▼

摘要

分布式系统的错误频率的增加导致运行应用任务完成时间增长,并且近年来大量记录了大规模分布式系统运行状态的现场失效数据以规范格式公布,在此背景下,本文研究分布式系统下基于检查点的容错服务,利用系统失效关联性特征来建立模型,得到减小分布式任务的完成时间的检查点放置策略,从而在保证系统可靠性的前提下,降低容错服务的实现代价,提高分布式系统的运行效率。
  论文主要的工作和贡献包括:
  (1)研究检查点/恢复技术的基本机制及其实现方式,分析分布式系统中保存通信状态以及保证其一致性的难点,通过实现了一个原型系统,研究全局检查点的代价、分布式系统的规模以及应用程序大小之间的关系;
  (2)提出一个基于检查点和系统失效关联性特征的容错模型,根据失效事件相关性分析结果,提出一种分布式系统节点关联性分组方法,利用节点分组信息建立以最小化浪费时间为目标的优化方程,得出了主动检查点的放置周期,并提出了一个包含主动检查点以及被动检查点的两类检查点放置策略;
  (3)基于FTA中失效数据格式,设计并实现了基于检查点的容错服务,并进行了对比仿真。首先选取FTA中部分系统失效数据,分别实现了本文提出的容错服务以及其他检查点容错服务,评估其中的参数,再利用剩下的系统失效数据进行性能评估,实验结果表明本文提出的容错服务的额外浪费时间较低,达到了预期目的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号