首页> 中文学位 >面向高可用性的MPI并行进程迁移机制研究
【6h】

面向高可用性的MPI并行进程迁移机制研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 绪 论

1.1 研究背景及意义

1.2 进程迁移国内外研究现状

1.3 研究内容

1.4 论文结构

第2章 基于FTB的C/R框架

2.1 MPI概述

2.2 传统C/R框架问题分析

2.3 基于FTB的C/R框架

2.4 本章小结

第3章 基于FTB的进程迁移机制

3.1 HPC系统的故障预测技术

3.2 进程迁移框架逻辑结构和功能

3.3 检查点和卷回协议

3.4 进程迁移流程

3.5一个面向高可用性的进程迁移协议

3.6 本章小结

第4章 性能分析与对比实验

4.1 实验环境

4.2 评价指标

4.3 性能测试

4.4对比实验

4.5 本章小结

结论

参考文献

攻读硕士学位期间发表的论文和取得的科研成果

致谢

展开▼

摘要

随着高性能计算技术的飞速发展,高性能计算(High Performance Computing,HPC)系统的中组件的数量和规模的急剧增大,系统的平均故障间隔时间(Mean Time Between Failure,MTBF)也随之大幅降低,严重影响了系统的可靠性。因此,为HPC配备自主容错能力至关重要。检查点和回卷(Checkpoint/Rollback,C/R)技术是 HPC中广泛采用的自主容错手段。但是,C/R技术通常会带来巨大的I/O开销,已经不能满足HPC应用的需求。进程迁移是一种主动式的自主容错机制,是对C/R技术的扩充,将即将失效节点上运行的进程传输到备用节点上,从备用节点恢复这些进程。
  首先,本文研究了国内外 HPC系统自主容错机制的发展现状,分析了广泛使用的检查点和回卷技术与进程迁移机制。其次,为了在基于InfiniBand的多核HPC系统上,对MPI并行程序执行检查点和卷回操作,本文深入研究了传统的C/R框架和InfiniBand信道架构,扩展了传统的C/R框架,提出了一个基于FTB(Fault Tolerance Backplane)的C/R框架。在此基础上,本文设计并实现了一种基于FTB的进程迁移机制,采用FTB作为容错控制消息通信框架,实现进程迁移过程中的容错控制消息传递,提高了开源MPI实现的容错能力。此外,本文还分析了进程迁移过程中各阶段的开销情况,针对检查点数据写入和传输阶段的高开销问题,设计了一个进程迁移协议,缩短了进程迁出即将失效节点的时间,提高了HPC系统主动容错的性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号