首页> 中文学位 >大规模计算机系统并行仿真技术研究
【6h】

大规模计算机系统并行仿真技术研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 计算机体系结构仿真技术背景

1.1.1 基本仿真技术

1.1.2 典型仿真器简介

1.2 关键问题与研究现状

1.2.1 性能与精准度问题

1.2.2 几种仿真加速技术

1.2.3 并行仿真技术简介

1.3 本文的研究目标、内容与贡献

1.4 本文章节安排

第2章 体系结构并行仿真技术分析

2.1 面向不同目标系统的并行仿真技术

2.1.1 单处理器并行仿真

2.1.2 多处理器、多/众核处理器、数据中心并行仿真

2.1.3 仿真器的划分与映射

2.2 同步问题与研究现状

2.2.1 保守协议

2.2.2 乐观协议

2.2.4 两种协议在体系结构仿真中的实现

2.3 典型体系结构并行仿真器分析

2.3.1 WWT

2.3.2 BigSim

2.3.3 COTSon

2.3.4 Graphite

2.4 本章小结

第3章 一种多核处理器时钟精确并行仿真技术

3.1 引言

3.2 相关工作

3.2.1 SimpleCMP

3.2.1 SlackSim

3.3 PCASim仿真器架构概览

3.3.1 PCASim的搭建方法

3.3.2 仿真器结构

3.4 关键技术

3.4.1 共享存储保护

3.4.2 悬挂路障同步机制

3.4.3 网络仿真

3.4.4 针对多线程的性能优化

3.5 实验评测与分析

3.5.1 实验设置

3.5.2 实验结果与分析

3.6 本章小结

第4章 两级同步:面向众核处理器的时钟精确并行仿真技术

4.1 引言

4.1.1 众核处理器发展状况简介

4.1.2 众核处理器并行仿真技术现状分析

4.2 众核并行仿真器MCASim框架

4.3 两级同步的作用机制

4.3.1 前瞻量路障、源路障、目标路障

4.3.2 两级同步:点到点同步与全局同步

4.4 两级同步性能的理论分析

4.4.1 两级同步与Slack同步性能的近似等价性

4.4.2 Slack同步的性能分析

4.4.3 Quantum同步的理论模型

4.5 实验

4.5.1 实验设置

4.5.2 实验结果与分析

4.5.3 模型验证

4.6 本章小结

第5章 放松约束的墙钟同步技术

5.1 Quantum同步的性能分析

5.2 松弛同步的性能与精确分析及研究现状

5.2.1 性能分析

5.2.2 精确度问题

5.2.3 研究现状

5.3 墙钟同步机制及其理论基础

5.3.1 运作机制概述

5.3.2 理论基础

5.3.3 若干实现问题

5.3.4 性能开销

5.4 墙钟同步在众核处理器仿真环境下的条件约束

5.5 实验

5.5.1 实验设置

5.5.2 实验结果与分析

5.6 本章小结

第6章 一种数据中心并行仿真技术

6.1 引言

6.1.1 数据中心并行仿真技术简介

6.1.2 研究现状

6.2 数据中心仿真器架构

6.2.1 仿真器搭建方案

6.2.2 各组件的集成与映射部署

6.3 数据中心并行仿真环境下的墙钟同步

6.3.1 路障同步在数据中心并行仿真环境中的性能问题

6.3.2 数据中心并行仿真环境适用墙钟同步的有利条件

6.3.3 不利条件

6.4 实验

6.4.1 实验设置

6.4.2 实验结果与分析

6.5 本章小结

第7章 总结及展望

7.1 全文总结

7.2 未来工作展望

致谢

参考文献

在读期间发表的学术论文与取得的其他研究成果

在读期间参与的科研项目

展开▼

摘要

传统的串行仿真技术无法有效的解决大规模计算机系统仿真的性能与资源开销问题,并行仿真技术已成为大规模计算机系统仿真的必然选择。然而节点间的同步极大的阻碍了仿真器达到理想性能,不当的同步通常会造成并行仿真器的性能下降一至两个数量级。而且同步的消极影响会随着仿真规模的增加而扩大,因此同步是大规模并行仿真器取得较高性能的关键所在。同步问题的解决必须考虑仿真的需求约束。在时钟精确仿真环境中同步机制需要在严格保证节点间时序关系的条件约束下挖掘仿真器的并行性;而非时钟精确仿真则允许因果关系错误存在,同步机制可以适当的突破限制、放大前瞻量,但是由此带来的精确度损失又成为并行仿真技术必须面临的另一项挑战。本文针对时钟精确与非时钟精确两类仿真需求,面向多核处理器与数据中心系统两类典型的大规模计算机系统,在分析总结了当前体系结构并行仿真技术存在的性能与精确度问题的基础上给出整体性的解决方案,并围绕关键的同步问题深入开展研究工作,提出了精确度与性能达到较优平衡的多种同步机制。本文的研究内容包括以下四个方面:
   1.多核处理器时钟精确并行仿真技术的研究。
   面向多核处理器并行仿真设计实现了一种能够保证仿真器时钟精确性的悬挂路障同步机制以及针对多线程环境的多种性能优化方法。悬挂路障同步机制通过提前设置的悬挂路障保证逻辑处理器能够及时接收到一些零延迟事件,在可忽略性能损失的情况下提高了传统保守同步协议的能力;多种性能优化方法包括针对共享存储模拟问题的存储访问Hash加锁方法,针对高速缓存假共享问题的私有存储变量、局部动态存储分配方法,针对线程间通信问题的无锁化队列通信方法。实验结果表明采用了上述同步机制及优化方法的多核处理器并行仿真器PCASim在17条宿主线程规模时相对串行仿真达到了平均8.66倍的加速比。
   2.众核处理器时钟精确并行仿真技术的研究。
   针对众核处理器时钟精确并行仿真时性能受同步限制的问题,提出一种充分挖掘仿真器并行性的两级同步机制。两级同步机制将仿真器的处理器核心模型与下级高速缓存与片上路由器等组件模型分割成两种模块,利用三种与对象系统存储访问过程紧密结合的路障保证两种模块间时序关系的一致性,使得仿真性能提高的同时时钟精确性不被破坏。理论分析指出,两级同步在性能上介于相同前瞻量Quantum同步的1至2倍之间,而且两级同步保持了存储层次及片上网络足够的细节。实验结果表明实现了两级同步的众核处理器并行仿真器MCASim相对串行仿真的平均加速比在使用16线程时达15.2倍,32线程时达22.0倍,亦证实了两级同步与Quantum同步的性能关系。
   3.放松同步技术的研究。
   针对放松同步扩大同步周期时长后带来的精确度大幅下降问题,通过分析放松同步中因果关系错误产生的主导因素,指出将所有节点调节成一致的速度后能够降低因果关系错误量,据此提出一种基于墙钟时间的高效非时钟精确同步技术。墙钟同步在松弛同步周期内新增一层同步逻辑时间与墙钟时间的协议,把仿真器所有执行实体调制出细粒度一致的速度,在获得了松弛同步性能收益的同时提高了仿真精确度。进而分析了真实仿真环境对墙钟同步的多种影响因素,给出了墙钟同步的适用条件。在众核处理器并行仿真器中实现了墙钟同步,实验结果表明,在精确度接近的条件下,墙钟同步与同期的Slack自适应同步技术相比,16条线程下平均提升20.3%的性能,32条线程下平均提升26.7%的性能。
   4.数据中心仿真技术的研究。
   基于全系统仿真技术与墙钟同步技术设计实现了一款面向数据中心的高效体系结构并行仿真器。仿真器支持包括IO设备的各类主要组件的高精度建模,能够运行起完整的数据中心系统与应用程序;拆分了网络模型使其亦支持并行运行,所有节点可灵活部署,有效避免了性能热点的形成。通过分析数据中心仿真器的特性,指出其目标系统链路延迟与仿真速度的比例关系有利于墙钟同步机制降低逻辑时钟偏差,为同步周期时长拓宽了上升空间。实验表明墙钟同步控制下的数据中心并行仿真器具有优异的性能表现,在32节点的配置下相对严格路障同步平均速度提升达5.1倍,相对近期的自适应路障同步亦平均提升了49.8%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号