首页> 中文学位 >HPCG在多核/众核平台上的实现与优化
【6h】

HPCG在多核/众核平台上的实现与优化

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景

1.1.1.国产高性能计算系统的发展趋势

1.1.2.商用高性能处理器系统发展趋势

1.1.3.系统基准测试程序的发展趋势

1.1.4.本文的研究动机

1.2 论文研究目标和主要工作

1.2.1.HPCG在商用多核/众核处理器上的优化策略和技术

1.2.3.HPCG在多核/众核上实现与优化的策略和技术比较

1.3 论文结构

第2章 相关工作

2.1 并行计算机系统性能测试程序

2.1.2.HPCC

2.1.3.HPCG

2.1.4.Graph 500

2.2 HPCG在商用多核/众核处理器平台上的优化策略和技术

2.2.1.GPU上的优化技术

2.2.2.Xeon Phi上的优化技术

2.3 HPCG在超级计算机上的实现与优化

2.4 本章小结

第3章 HPCG在商用多核/众核处理器上的优化策略和技术

3.1 HPCG基准测试程序的程序结构

3.2 HPCG程序运行时行为特征分析

3.2.1.计算特征

3.2.2.访存特征

3.2.3.通信特征

3.2.4.I/O特征

3.3 HPCG在多核/众核平台上实现和优化的重点和难点

3.4 HPCG在Xeon多核处理器上的并行与优化

3.4.1.Multi-Coloring并行化

3.4.2.前后项融合计算以及并行化

3.4.3.其他优化方法

3.4.4.性能分析

3.5 GPU P100上的HPCG性能分析

3.6 KNL上的HPCG的实现和性能分析

3.6.1.基于MC方法的HPCG实现

3.6.2.基于HGC方法的HPCG实现

3.7 本章小结

第4章 HPCG在神威·太湖之光系统上的实现和优化技术

4.1 神威·太湖之光与SW26010众核处理器

4.1.1.神威·太湖之光

4.1.2.SW26010众核处理器

4.2 HPCG在申威处理器上的移植

4.3 HPCG在申威处理器上的并行化方法设计

4.3.2.Level-Scheduling并行化

4.3.3.0 -1并行化

4.3.4.Hierarchical Grid Collaborative并行化

4.4 单核组优化方案设计

4.4.1.数据传输优化

4.4.2.协同计算优化

4.4.3.数据同步优化

4.4.4.SIMD优化

4.4.5.其他优化

4.5 多核组优化方案设计

4.5.1.软件Cache设计

4.5.2.异步发送

4.6 性能分析

4.6.1.测试算例

4.6.2.单核组性能分析

4.6.3.多节点性能分析

4.7 本章小结

第5章 HPCG在多核/众核上的实现和优化的策略和技术比较

5.1.2.访存带宽上的差异

5.1.3.内存模式的差异

5.1.4.向量化的差异

5.1.5.编程实现上的差异

5.2 下—代神威处理器的改进建议

5.2.2.访存带宽

5.2.4.Shared Memoy的设计

5.2.7.编程接口的设计

5.3 本章小结

第6章 全文总结

6.1 研究工作总结

6.2 本文创新点

6.3 未来工作展望

参考文献

致谢

在读期间发表的学术论文与取得的研究成果

在读期间参与的科研项目

展开▼

摘要

目前,世界排名第一的超级计算机神威·太湖之光是我国自主研制的世界上第一台峰值性能超过100P的超算系统,由40960个SW-26010处理器构成,总核心数达1040万个,每一个处理器由四个核组构成,每一个核组又由65个核心组成,其中一个核心作为主核(MPE),其他64个核心作为从核(CPEs),单节点峰值性能为3TFlops,系统的理论峰值性能达125PFlops,LINPACK测程序的性能达到70%以上,但是,高性能共轭梯度基准测试程序(HPCG)的性能却只有LINPACK性能的0.4%,表明对于HPCG这类应用,不仅需要针对应用进行深度优化,亦可能需要对神威·太湖之光的结构提出一定的改进意见。作为一种新的系统基准测试程序,HPCG的设计能够更全面地测试系统在计算、访存、通信等各个方面的实际性能,比LINPACK基准测试程序更能代表真实应用的实际情况。本文的研究目标是通过在多核/众核平台上实现HPCG的算法与结构的一体化研究,深入理解该程序对不同体系结构的适应性,为在神威·太湖之光上实现和优化实际应用程序提供借鉴,并为下一代系统的研发提供参考。本文的研究工作及成果主要包括以下几个方面:
  首先,HPCG在商用多核/众核处理器上的优化策略和技术。一方面深入分析HPCG软件结构,利用大量的性能分析工具刻画程序在运行时计算、访存、通信等各方面特征以及热点函数,明确数据依赖关系;另一方面实现多种算法在多核/众核系统(Xeon CPU、GPU P100以及KNL)上的并行,并针对程序的时间、空间局部性进行性能优化,充分了解商用处理器的多核/众核特性以及HPCG在这种架构上的性能表现,亦为HPCG在申威异构众核加速系统上的实现和优化提供先验知识。
  其次,HPCG在在神威·太湖之光系统上的实现与优化技术。针对申威处理器的架构特点以及HPCG的计算、访存等特征,实现四种在单核组上的并行化方案,包括Multi-Coloring、level-Scheduling、0-1方法以及更符合申威架构的Hierarchical Grid Collaborative算法,并从架构和算法角度对HPCG进行深度优化,包括数据传输、协同计算、数据同步等优化策略,最终单核组四种方法分别获得1.54x,5.52x,10.9x及15.6x的性能加速,多核组上,对边界数据的处理以及核组间的数据通信方式进行优化,扩展至40960个进程时性能为192TFlops,并行效率超过70%。
  最后,HPCG在多核/众核上实现与优化的策略和技术比较。结合HPCG在商用Xeon多核、申威处理器、GPU P100及KNL上的性能表现,分析类似于HPCG这种应用在各种平台上的性能差异,即哪种架构特征有助于提高HPCG的性能,我们将从并行化方法、访存带宽、向量化等方面进行讨论算法/架构/性能之间的关系,并为下一代申威处理器的设计提出相关建议。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号