首页> 中文学位 >基于虚拟机动态迁移的主动容错系统设计与实现
【6h】

基于虚拟机动态迁移的主动容错系统设计与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

插图索引

表格索引

缩略语对照表

目录

第一章 绪论

1.1 研究的背景

1.2 国内外研究现状

1.3 本文的研究内容

1.4 论文的组织结构

第二章 容错技术简介

2.1 错误模型

2.2被动容错技术

2.3主动容错技术

第三章 主动容错系统的设计

3.1协同计算云平台的概述

3.2计算模块的容错设计

3.3 主动容错的结构设计

3.4 监控模块的设计

3.5 错误预测模块的设计

3.3容错迁移模块

3.7 本章小结

第四章 主动容错系统的实现

4.1系统的总体实现

4.2 数据收集模块的实现

4.3 错误预测模块的实现

4.4 容错迁移模块的实现

4.5 本章小结

第五章 实验与分析

5.1 实验环境

5.2 两种算法流程

5.3 算法性测试

第六章 总结与展望

致谢

参考文献

作者简介

展开▼

摘要

随着云计算的快速发展,社会各个领域对计算资源的需求不断增加,高性能计算集群的应用领域越发广泛,包括银行系统,购物系统,天气预报系统,科学计算系统等在内的许多系统都需要大量的计算资源。为了满足这样的需求计算集群的规模也在不断扩大。在如此庞大的计算集群中,即使节点故障率很低,也难免有很多节点发生故障。节点发生故障有很多原因,归纳起来主要有硬件,软件,环境,网络,人为等多种因素,而尤以硬件出现故障的频率最高[31]。为了减少硬件故障对系统的影响,本文对主动容错技术进行了研究。主要研究内容有以下三点:
  1.为用于科学计算的大规模集群设计并实现了一套主动容错系统,以减小硬件失效对集群的影响。该系统由三个模块组成,即数据收集模块,错误预测模块和容错迁移模块。数据收集模块负责定时从系统中收集集群的硬件资源数据和系统资源数据,并将数据发送给错误预测模块进行错误预测。错误预测模块负责收数据收集模块收集的集群数据,并使用阈值算法或阈值梯度算法对数据进行分析并进行错误预测,将错误预测结果发送给错误迁移模块进行任务迁移。错误迁移模块接收各个计算节点发送的问题主机信息并从调度器获得调度结果将问题主机上的任务在主机宕机前迁移到健康主机上。
  2.提出了一种适用于主动容错的错误预测算法。考虑到现有算法缺少考虑数据变化趋势的现状,将数据变化率这个因素引入错误预测,从而提出了阈值梯度预测算法。该算法不仅参考测量数值本身,还关注数据变化趋势,增加了故障预测的准确性。
  3.提出了一种选择预测算法的方法。该方法依据所检测硬件数据本身特点,即由该硬件致使整个计算机系统处于的危险状态的程度。通过描述某个硬件危险系数随着硬件数据变化的规律,依照不同的规律选择与之相符的算法,能够使系统在对硬件数据进行预测时可以更加灵活和有效的选择预测算法。

著录项

代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号