声明
摘要
论文图表索引
第一章 绪论
1.1 研究背景
1.1.1 分布式系统容错
1.1.2 检查点/恢复容错技术
1.1.3 分布式系统的现场失效数据
1.1.4 分布式系统的错误相关性分析
1.2 本文研究内容和工作
1.3 本文组织结构
第二章 研究现状及相关技术
2.1 分布式系统的容错研究现状
2.1.1 全局检查点容错技术
2.1.2 消息缓存日志技术
2.2 检查点/恢复的容错技术研究现状
2.2.1 检查点/恢复机制的技术实现
2.2.2 分布式系统的检查点/恢复算法
2.2.3 检查点放置策略研究现状
2.3 系统失效数据关联性分析研究现状
2.3.1 时间相关性分析
2.3.2 空间相关性分析
2.4 尚存在的问题
2.5 本章小结
第三章 检查点/恢复容错服务
3.1 容错服务概述
3.2 问题建模
3.2.1 模型假设
3.2.2 模型描述与符号说明
3.2.3 问题描述
3.3 事件关联性分析与系统节点分组
3.3.1 事件相关性分析
3.3.2 系统节点分组
3.4 相关节点事件合并与系统事件合并
3.5 主动检查点周期求解
3.6 容错服务检查点放置策略
3.7 本章小结
第四章 检查点/恢复容错服务实现
4.1 单进程检查点/恢复的实现
4.2 分布式系统检查点/恢复原型系统
4.3 本章小结
第五章 检查点/恢复容错服务的实验分析
5.1 实验方法
5.2 实验环境
5.3 FTA事件格式分析以及数据预处理
5.4 模型参数的评估以及合理性分析
5.4.1 时间窗参数θ值评估
5.4.2 关联度阈值Tconst评估
5.4.3 拟合参数M评估
5.4.4 检查点代价Tgcp评估
5.4.5 回退因子K评估
5.5 Liu-Raga检查点策略参数评估
5.6 实验结果与分析
5.7 本章小结
第六章 总结及未来工作
6.1 总结
6.2 未来工作
致谢
参考文献