HPCG在多核/众核平台上的实现与优化

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

目前，世界排名第一的超级计算机神威·太湖之光是我国自主研制的世界上第一台峰值性能超过100P的超算系统，由40960个SW-26010处理器构成，总核心数达1040万个，每一个处理器由四个核组构成，每一个核组又由65个核心组成，其中一个核心作为主核(MPE)，其他64个核心作为从核(CPEs)，单节点峰值性能为3TFlops，系统的理论峰值性能达125PFlops，LINPACK测程序的性能达到70％以上，但是，高性能共轭梯度基准测试程序(HPCG)的性能却只有LINPACK性能的0.4％，表明对于HPCG这类应用，不仅需要针对应用进行深度优化，亦可能需要对神威·太湖之光的结构提出一定的改进意见。作为一种新的系统基准测试程序，HPCG的设计能够更全面地测试系统在计算、访存、通信等各个方面的实际性能，比LINPACK基准测试程序更能代表真实应用的实际情况。本文的研究目标是通过在多核/众核平台上实现HPCG的算法与结构的一体化研究，深入理解该程序对不同体系结构的适应性，为在神威·太湖之光上实现和优化实际应用程序提供借鉴，并为下一代系统的研发提供参考。本文的研究工作及成果主要包括以下几个方面:
　　首先，HPCG在商用多核/众核处理器上的优化策略和技术。一方面深入分析HPCG软件结构，利用大量的性能分析工具刻画程序在运行时计算、访存、通信等各方面特征以及热点函数，明确数据依赖关系;另一方面实现多种算法在多核/众核系统（Xeon CPU、GPU P100以及KNL）上的并行，并针对程序的时间、空间局部性进行性能优化，充分了解商用处理器的多核/众核特性以及HPCG在这种架构上的性能表现，亦为HPCG在申威异构众核加速系统上的实现和优化提供先验知识。
　　其次，HPCG在在神威·太湖之光系统上的实现与优化技术。针对申威处理器的架构特点以及HPCG的计算、访存等特征，实现四种在单核组上的并行化方案，包括Multi-Coloring、level-Scheduling、0-1方法以及更符合申威架构的Hierarchical Grid Collaborative算法，并从架构和算法角度对HPCG进行深度优化，包括数据传输、协同计算、数据同步等优化策略，最终单核组四种方法分别获得1.54x，5.52x，10.9x及15.6x的性能加速，多核组上，对边界数据的处理以及核组间的数据通信方式进行优化，扩展至40960个进程时性能为192TFlops，并行效率超过70％。
　　最后，HPCG在多核/众核上实现与优化的策略和技术比较。结合HPCG在商用Xeon多核、申威处理器、GPU P100及KNL上的性能表现，分析类似于HPCG这种应用在各种平台上的性能差异，即哪种架构特征有助于提高HPCG的性能，我们将从并行化方法、访存带宽、向量化等方面进行讨论算法/架构/性能之间的关系，并为下一代申威处理器的设计提出相关建议。

著录项

作者
廖陈志;
展开▼
作者单位

中国科学技术大学;

展开▼
授予单位中国科学技术大学;
学科计算机系统结构
授予学位硕士
导师姓名安虹;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类大型、巨型计算机;设计与性能分析;
关键词
超级计算机; 众核处理器; 结构优化; 并行计算;

相似文献

中文文献
外文文献
专利

1. 多核/众核平台上推荐算法的实现与性能评估 [J] . 陈静 ,方建滨 ,唐滔 . 计算机科学 . 2017,第010期
2. 有限元网格积分算法在MIC众核平台上的并行实现 [J] . 寇大治 ,孔大力 . 计算机科学 . 2015,第011期
3. 众核平台上广度优先搜索算法的优化 [J] . 徐启泽 ,韩文廷 ,陈俊仕 . 计算机科学 . 2019,第001期
4. SOM算法在申威众核上的实现和优化 [J] . 姚庆 ,郑凯 ,刘垚 . 计算机科学 . 2018,第0z2期
5. 一种在多核嵌入式平台上实现FFT的快速并行算法 [J] . 彭自然 ,王国军 . 计算机应用研究 . 2017,第011期
6. 多核/众核平台上推荐算法实现与性能评估 [C] . Chen Jing ,陈静 ,Fang Jianbin . 2016年全国高性能计算学术年会 . 2016
7. H.264视频众核解码研究及在定制众核虚拟平台上的实现 [A] . 陈稳 . 2017

HPCG在多核/众核平台上的实现与优化

目录

摘要

著录项

相似文献

相关主题

期刊订阅