首页>中文会议>其他>2018年全国高性能计算学术年会

2018年全国高性能计算学术年会

召开年：2018
召开地：青岛
出版时间： 2018-10-18

主办单位：;中国计算机学会;;

会议文集：2018年全国高性能计算学术年会论文集

会议论文

热门论文

全部论文

全选（0）

1.mDCR：一个多任务的并行计算模型和运行框架
- Hu Chen;陈虎;Yingwen Yang;杨颖文
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：针对蒙特卡罗模拟等一大类并行计算问题提出了基于分解、计算和规约的多任务并行计算模型,并开发了支持此模型的运行框架.通过此并行计算模型和运行框架,用户可以集中精力于特定的计算问题,负载均衡、节点管理、多任务计算资源分配、依赖关系控制、消息传递等均由运行框架实现,有效地提升了大规模并行计算软件的开发效率.本文介绍了该计算模型的基本原理,特别是在多任务方面的依赖关系描述、消息通信、计算资源分配等特点.随后,文章较为详细地介绍了运行框架的总体结构、线程结构和队列结构,以及多任务方面实现的细节.采用控制子任务发送速度方法实现了多任务组之间的计算资源虚拟分配.与此同时,还使用多级队列流水线工作方式和区分子任务计算类型方法来提升计算节点的吞吐率.论文最后给出了运行框架在"神威太湖之光"和"天河二号"超级计算机上的运行测试,验证了计算能力分配和处理失效计算节点方法的有效性.
2.一种基于机器学习方法的并行程序骨架构建方法
- Zihang Zhang;张子航;Guangzhong Sun;孙广中;Jiepeng Zhang;张杰鹏;Yuze Qin;秦宇泽;Yilun Dong;董逸伦
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：在并行计算领域,程序性能的预测一直是一个重要课题.对于那些在工作站集群和超算系统上运行的程序而言,对其运行时间的准确预测能够对系统的任务调度和资源管理有所帮助.在这些系统上运行的程序通常是科学计算程序.在本文中,结合骨架程序方法、机器学习方法和代码插桩技术,提出了一种新的用于并行程序运行时间预测的方法,能够解决在一些场景下现有的运行时间预测方法无法解决或结果较差的运行时间预测问题.
3.基于共享内存的OpenCL主机-内核代码融合编译器设计与实现
- Hong Rui;洪锐;Wu Mingchuan;伍明川;Liu Ying;刘颖;Huang Lei;黄磊;Feng Xiaobing;冯晓兵
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：近年来,GPU等加速设备越来越多的出现在服务器、个人电脑、终端设备中,异构架构已成为主流.然而现有的异构编译工具采用通用处理器和加速器代码分离的编译方案,忽略了异构代码之间的相关性,限制了优化范围.本文设计并实现了一种基于共享内存的OpenCL主机一内核代码融合编译器,利用系统的共享内存机制,通过构建拓展符号表(Expandi ng Symbol Table,EST),实现主机代码和内核代码的协同编译,挖掘更多的优化机会.本文在Clang的基础上,实现了该编译器,并在Nvidia K40c GPU的平台上进行了验证.实验结果表明,与传统的分离编译相比,融合编译器以较小的时间代价(平均不超过13％),换取了众多全程序级的优化机会,例如常数传播、线程间向量化等.
4.基于CUDA的地震相干体并行算法
- Quan Zhang;张全;Baiyue Lin;林柏栎;Bo Peng;彭博;Zining Jin;靳梓宁
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：相干体技术在地震勘探资料解释方面得到了广泛的应用,由于相干体技术处理的对象是三维地震数据体,所以算法运算时间较长.为了缩短解释周期,本文充分发挥GPU并行计算优势,对C3相干体算法进行并行化分析.从硬盘读取数据到GPU上计算相干值并写入硬盘整个过程进行分析,剔除了冗余数据的读取,完成了C3相干体算法的并行化设计与实现.最后分别对串行算法与并行算法进行性能测试,结果表明本文设计的并行算法在保证精度的前提下达到了16倍左右的加速比,对加快地震资料解释具有重要意义.
5.针对基于Cache的同驻攻击的主动防御策略
- Huang Ruwei;黄汝维;He Peicong;何佩聪;Liu Can;刘灿;Chen Siqi;陈思琪
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：同驻检测攻击是云环境安全的潜在威胁之一,针对基于Cache的同驻检测攻击特点,本文提出一种触发式主动防御策略.通过结合中心极限定理与拉依达准则检测服务器端Cache未命中数情况,若异常则触发动态噪声注入防御机制,该防御机制通过主动添加噪声对抗疑似同驻检测.同时对虚拟机端CPU使用率进行周期性脉冲检测判断,从而确定是否存在同驻检测攻击行为,并根据结果撤销或迁移恶意虚拟机.实验结果表明,该策略能取得较好的防御、检测效果与较低的服务器性能损耗.
6.基于FPGA的流计算加速框架设计
- Liu Yuanqing;刘元卿;Chen Can;陈灿;Shen Hua;沈华;Zang Dawei;臧大伟
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：随着大数据时代对数据实时性处理的需求不断提高,各大公司纷纷部署基于CPU计算平台的流式计算框架以满足推荐系统、计算广告等实时性应用的需求;但是当前基于CPU计算平台的流式计算系统在实时性和并发度上很难满足企业的需求.与传统CPU相比,FPGA具有高数据吞吐率、低延迟、低功耗、高灵活度等优势,基于FPGA这些特点本文提出了一种基于FPGA的流式计算加速框架,通过软硬件协同设计的方法来提高流式计算系统的并发度,并降低处理延迟.在硬件结构上,该计算框架将流式处理系统的核心操作通过硬件逻辑的方式映射到FPGA中,并通过FPGA中的轻量级通信协议接口实现多FPGA之间的直接通信,从而降低流式计算部件之间的通信延迟;在软件结构中,通过统一的编程接口和流量分配方式,实现流式计算框架的负载均衡等操作.经原型系统和模拟实验验证,该计算系统可以大幅度降低流式计算部件之间的数据交互延迟,在选取的测试模型中可以取得7.89倍的加速效果,处理延迟只有处理器系统的1/11.
7.稀疏矩阵向量乘法在申威众核架构上的性能优化
- Li Yiyuan;李亿渊;Wang Xinliang;王欣亮;Xu Ping;许平;Xue Wei;薛巍
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：计算机数值模拟是现代科学和技术发展的重要触发力量.在数值模拟中,求解大规模稀疏线性方程组是非常重要的一个环节.求解过程中,稀疏矩阵向量乘法是耗时最长的计算核心之一,存在严重的数据局部性差、写冲突、负载不均衡均衡等问题.与硬件结合后,还会存在频繁缓存判断和细粒度访问等问题.因此,稀疏矩阵向量乘法已经成为了当前众核性能优化的难点和研究热点.本文面向国产众核框架,以申威26010国产众核处理器为平台,针对稀疏矩阵向量乘法,在线程级和指令级并行层面上进行细粒度的并行算法设计和优化实现.其核心思想是,在矩阵天然行并行的基础上,将相邻行绑定并分成不同矩阵块后进行任务分配.通过对SuiteSparse矩阵集中的所有2710个算例进行测试,该算法可以获得与主核上的串行算法相比11.7倍的平均加速和超过50倍的最高加速.
8.基于OpenCL的WebP图像有损压缩算法FPGA异构加速技术
- Zhao Yaqian;赵雅倩;Guo Zhenhua;郭振华;Fan Baoyu;范宝余;Hu Leijun;胡雷钧;Gao Kai;高开
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：随着多媒体技术的不断发展,超大规模的图像数据量给数据中心服务器的存储和网络带宽带来了严重的挑战.作为新型图像文件格式,与JPEG、PNG相比,WebP可以减少25％～34％的文件大小,能够有效缓解这一挑战.但是,WebP编码需要较高的计算复杂度,为了提高在数据中心服务器中WebP编码的能效,本文基于OpenCL语言对WebP图像有损压缩算法FPGA异构加速技术展开研究.通过对标准WebP图像有损压缩算法进行功能优化,在压缩率、吞吐率性能、FPGA资源之间进行平衡,最后,基于OpenCL语言在Intel Arria10GX1150FPGA上实现了压缩率相当于method=1压缩模式级别的WebP图像有损压缩算法.本文提出的WebP FPGA异构加速方案整体吞吐率性能可到281MPixel/s,与24核的Intel Xeon E5-2690v3处理器相比,每瓦特性能可提高2.29倍;与AWS FPGA云服务提供的Xilinx WebP方案相比,吞吐率性能可提高2.5倍;与阿里FPGA云服务提供的联捷科技WebP方案相比,吞吐率性能可提高1.79倍.
9.面向LICOM3系统的并行I/O优化技术研究与实现
- Zhu Zijie;祝子杰;Li Yunlong;李云龙;Zhu Xiaoqian;朱小谦;Lin Pengfei;林鹏飞;Liu Hailong;刘海龙
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：高精度的地球系统模式对于预测恶劣气候、减少极端天气带来的负面影响具有重要意义.但是随着模式分辨率以及模拟进程数增加,I/0部分会占用较多的运行时间和资源,影响程序运行效率.本文针对地球系统模式的I/0问题,以LICOM3(LASG/IAP Climate System Ocean Model Version3)为研究对象,全面分析其I/0特点,实现了水平10公里分辨率下ADIOS(Adaptive I/0System)和MPI-I0两种并行I/0优化方案.对于ADIOS,采用POSIX方法和MPI方法提升并行输出性能,前者进程和输出文件是一一对应的关系,后者一个通信组内的进程对应一个输出文件.对于MPI-10,采用聚合I/0函数和文件视口与分布式数组相结合的方式提升I/0性能.此外,本文进一步在天河HPC2系统公网下进行大量测试,探究I/0性能的影响因素,从而提出适合地球系统模式通用的高性能I/0优化方案.实验表明:当进程数达到4K规模的时候,串行模式下I/0部分的占比高达50％;而在320-4400核数下ADIOS优化方案的I/0占比均不超过10％,写带宽最高可达56.74GB/s,MPI-IO优化方案I0占比均不超过25％.两种I/0优化方案的性能均显著优于串行I/0访问模式.
10.基于申威众核处理器的格点量子色动力学并行加速计算方法
- Zhang Zengxiao;张增校;Luan Zhongzhi;栾钟治;Gong Ming;宫明;Xu Shun;徐顺
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：格点量子色动力学(lattice QCD)是用格点量子场论研究量子色动力学(QCD)的一种主流非微扰理论计算方法,通过将场变量定义在离散的时空格点上以及结合大规模的Monte Carlo数值模拟计算,其计算结果可直接与实验进行比较,但常规的计算平台难以满足大规模和高精度的格点QCD计算模拟需求.神威太湖之光超级计算机是世界上第一台峰值性能超过1OOPflops的超级计算机,其为格点QCD的计算提供了新的平台,但在该平台上实现高效的格点QCD大规模并行计算仍面临着诸多难题.为实现格点QCD在神威太湖之光上的高效计算,本文针对申威处理器设计了一种格点QCD并行加速计算方法,充分利用申威处理器体系架构的并行特性,提出了一种新的并行计算方法,并对数据分割、数据传输和并行计算方法进行了改进与优化.最后使用测试数据对本文提出的优化并行化计算方法以及传统串行计算方法进行测试,实验表明,并行优化后的计算方法相较于原始串行计算方法可获得63倍的性能提升.
11.一种多精度混合的浮点乘加部件的设计与实现
- Chen Zhengbo;陈正博;Wu Tiebin;吴铁彬;Liu Xiao;刘骁;Zheng Fang;郑方;Ding Yajun;丁亚军;Li Hongliang;李宏亮
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：人工智能发展兴起,低精度浮点运算由于计算速度快且结果准确度下降少等优点得到广泛应用.如何充分发挥高低精度浮点的各自优势,研究不同精度浮点乘加部件的融合方法需求迫切.本文设计和实现了6级全流水的多精度混合浮点乘加部件,支持双精度、并行2个单精度和并行4个半精度的浮点乘法、浮点乘累加、无符号和有符号整数乘法操作,并对部件进行了正确性测试和物理综合.本文提出了浮点乘加部件三精度混合方法,突破了三精度混合情况下乘法器复用、移位器复用、前导零预测器复用等关键技术.结果表明,类比于经典的浮点乘加部件结构,硬件面积减少了30.5％,功耗降低了42.66％,综合运行频率可达2.5GHz.
12.基于强化学习的Lustre文件系统的性能调优
- Zhang Wentao;张文韬;Wang Lu;汪璐;Cheng Yaodong;程耀东
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：高能物理计算是典型的数据密集型计算,文件访问模式以跳读为主,并发度高.吞吐率、响应时间等性能对整个系统至关重要,往往是重点关注的性能优化目标.分布式存储系统存在大量可供调节的参数,这些参数的设置对系统的性能有着很大的影响.而参数调节和系统的反馈之间是有延时的,如果采取了连续多个调节动作,很难确定究竟是哪个动作起了作用,或者每个动作对结果的影响是多少.因此,人工调节不免存在偏差,况且庞大的参数搜索空间、负载的连续性、负载和设备的多样性等因素也决定了传统方法是非常低效的.实际上,如果把调节引擎看作是智能体,把存储系统看作是环境,存储系统的参数调节问题是典型的顺序决策问题.因此,基于高能物理计算的数据访问特点,提出了用强化学习的方法来进行自动化的参数调优.实验表明,在相同的测试环境下,以Lustre文件系统默认参数为基准,该方法可使其吞吐率提升30％左右.
13.共享指令缓存XOR散列索引的研究与设计
- Liu Xiao;刘骁;Tang Yong;唐勇;Zheng Fang;郑方;Ding Yajun;丁亚军
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：SPMD(Single Program Multiple Data)是高性能领域的主要工作模式之一,该模式下邻近核心执行相同的程序块,但根据处理数据或控制流的差异,核心指令流并不完全相同.L1ICache(lnstruction Cache)共享技术将邻近核心的Ll ICache共享,能有效利用众核处理器SPMD工作模式的特点,同时能缓解片上资源紧张的问题.但共享结构会带来访问冲突,对性能有较大不利影响.本文基于排队网络对共享ICache的访问冲突进行了理论分析,设计了面向共享Ll ICache的低访问冲突XOR散列函数.该散列函数基于异或操作,通过调整ICache排队网络模型的节点转换概率,有效降低了共享LlICache的体访问冲突.实验结果表明,在指令缓存总容量为32KB的四核心簇上,使用XOR散列的共享Ll ICache结构较私有Ll ICache结构性能平均优化11％,较使用低位交错策略的共享L1ICache结构性能平均优化8％.
14.基于“神威·太湖之光”的区域海洋模式并行优化
- Qi Wu;吴琦;Yufang Ni;倪裕芳;Xiaomeng Huang;黄小猛
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：海洋模式作为地球数值模拟中重要的组成模块,在很多领域都起到了至关重要的作用,不仅是研究海洋、河口和海岸不可或缺的科研手段,基于海洋模式搭建的预报系统还能够实时预测台风、海啸等现象.为了模拟更细粒度的海洋变化,海洋模式朝着更高的分辨率和更多的物理参数化方案发展,一般的计算机已无法满足其需求.随着散热和功耗成为通用处理器的主要瓶颈,多核、众核以及由此导致的异构已成为下一代超级计算机的发展趋势,这也为发展高分辨率海洋模式提供了坚实的基础平台.本文基于国产超级计算机"神威太湖之光",利用其异构众核体系结构的优势对区域海洋模式POM进行移植和优化,充分发挥了国产异构众核平台的特点和优势.高分辨率海洋模式swPOM在主从核协作下运行效率达到纯主核的13倍,是通用intel平台的2.8倍左右,可扩展到25万核上运行,为实时预报系统提供了保障.
15.监督学习模型指导的低开销编译器优化顺序选择方法研究
- Liu Hui;刘慧;Zhao Rongcai;赵荣彩;Yao Jinyang;姚金阳
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：针对新的应用程序和目标平台通常需要使用编译器进行程序优化顺序选择,以提升目标代码性能.迭代编译可使优化顺序选择过程自动进行,在允许的时间空间范围内尽可能多的执行程序的不同版本,但该方法是一种机械式搜索,缺少对先前获得经验的利用,需要较大的执行开销.因此,需要能自动预测变换后目标程序性能而不必实际运行程序的优化编译方法.本文提出一种选择编译器优化顺序的新方法:基于监督学习模型的优化顺序选择方法Features ANN.该方法首先采用动静结合的程序特征表示技术,对程序特征进行抽取;然后基于程序特征对编译优化空间进行搜索,找到当前程序版本的最佳优化;最后,由程序特征和最佳优化形成训练样本,采用人工神经网络构建监督学习模型,对新程序的最佳编译优化顺序进行预测.实验结果表明,Features ANN与两种现有迭代编译方法GraphDSE和ClusterDSE比较时,在两种平台上相对于编译器标准优化级别-O3分别获得1.49×、1.25×、1.39×和1.41×,1.16×、1.22×的执行时间加速比.此外,与现有非迭代编译方法相比时,Features ANN也获得了最佳的性能提升.
16.基于用户级融合IO的Key-Value存储系统优化技术研究
- Zhang Yunyao;张云尧;An Zhongqi;安仲奇;Xing Jing;邢晶;Huo Zhigang;霍志刚
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：传统分布式Key-Value存储系统大都基于操作系统提供的Socket与POSIXI/O接口构建,受限于接口语义及内核开销,难以发挥底层新型网络和存储硬件高吞吐与低延迟的性能优势.本文聚焦Key-Value存储系统的数据通路,面向高速以太网与NVMe SSD,于用户态整合网络栈与I/O栈,协同设计以优化吞吐性能与延迟稳定性.本文的用户级融合I/O栈的控制平面由同一处理器核心于同一上下文中统一管理网卡与SSD设备的硬件队列,消除了传统分离式设计所导致的多次进出内核态、多次上下文切换以及潜在的核间通信与数据迁移等的弊端,最大限度降低系统软件层面的管控开销.数据平面采用统一的内存池,借助用户级设备驱动,数据于上层Key-Value系统与底层设备之间直接通过DMA传输,没有额外数据拷贝与操作系统干涉.针对大消息访问请求,通过将数据分片并交叠执行网络与存储DMA操作,进一步掩藏了访问延迟.本文实现了全用户态Key-Value存储系统UserKV,其支持DRAM-SSD二层存储以及广泛应用的Memcached接口.本文将UserKV与由Twitter开源的Fatcache系统进行了测试对比.实验结果表明,涉及SSD的SET请求的QPS吞吐提高了14.97％-97.78％,GET操作的Qps提高了14.60％-51.81％;涉及SSD的SET请求的p95延迟降低了26.12％-40.90％,GET操作的p95延迟降低了15.10％-24.36％.
17.一种基于共享公平的多资源公平分配策略
- Li Jie;李杰;Li WeiDong;李伟东;Zhang XueJie;张学杰
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：通过资源共享的方式在云计算系统中分配计算和存储资源,是一种提高资源利用率的有效方式.但是现有的研究多是基于用户多组任务数无限制需求的前提.针对云计算资源共享系统中用户多组有限任务资源需求的分配问题,该文提出了一种基于资源共享公平的多资源公平分配机制.该机制根据用户不同时刻的有限任务资源需求和用户共享资源量建立规划模型,证明了在这种机制下,用户所得分配满足以下4个公平属性:激励共享、资源共享使用公平、帕累托最优、防策略操纵.进而在具体分配问题上,提出一种公平性启发式算法,通过用户共享系数概念设计了分配策略,可以保证分配公平性的同时,用户不发生共享损失.实验结果表明,所提出资源分配机制在资源共享用户提出多组资源需求时,在保证用户资源共享公平,提高资源利用率方面,取得了很好的效果.
18.利用多副本调度策略支持分布式对象存储的强一致性及负载均衡
- Shi Xiao;史骁;胡德天;Hu Detian;Song Yonghao;宋永浩;Zheng Xiaohui;郑晓辉;Jiang Yuntao;姜云涛;Liu Xiaodong;刘晓东;唐宏伟;Tang Hongwei;Zhao Xiaofang;赵晓芳
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：在分布式对象存储系统中,最终一致性模型可影响存储服务质量以及应用计算的准确性.同时,存储系统中的负载不均衡严重影响系统存储资源的利用率.意识到这两个问题可以通过统一的多副本调度策略来解决.本文提出了一个简单高效的多副本调度策略.该策略基于多副本的主从模型.其创新性地以主副本节点为中心,提供I/0之间的数据相关性检验以及负载均衡.该策略包含三个主要步骤.第一,所有相应的I/0请求被发送至主副本节点进行负载合并以及强一致性关系的确定.第二,这些请求继而被转发至数据相关性检测器进行优先级分配.第三,根据数据相关性以及实时的负载分布情况,将所有预处理后的I/0请求尽可能均衡地转发至目标副本节点上进行处理.实现了一个分布式对象存储模型用以验证实验.实验表明,本文策略可以在保障强一致性的同时,实现高效的负载均衡,提高系统资源利用率并取得高度可预测的存储服务质量.同其他调度机制相比较,我们的策略可使得GET请求吞吐率最大提升41.8％,平均GET请求延迟最大降低42.5％,99.9百分位GET请求延迟最大降低15.8倍.
19.基于Hopfield Neural Network的云作业调度算法
- Li Qiang;李强;Qiang Yan;强彦;Hao Rui;郝瑞;Liu Xiaofeng;刘晓峰
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：针对当前云作业调度效率不高,资源利用不够充分,尚不能发挥其最大优势,提出一种基于Hopfield Neural Network(HNN)作业调度算法.为了实现系统资源调度能力的提高,首先分析影响云作业调度相关资源的特点;然后建立资源条件约束数学模型,设计霍普菲儿德能量函数,并对其优化;最后,通过标准用例Wordcount进行测试分析9个节点的平均利用率,并与3个典型算法包括基于资源的动态调用算法、基于能耗的算法和公平调度算法进行性能和资源利用方面的比较.实验表明,该方法在效率上较其它3个算法分别平均提升24.7％、29.2％和35.5％.因此,该方法在应用中可以更好地实现资源负载平衡,将有助于提升Hadoop作业调度能力.
20.基于卷积神经网络的低剂量CT图像肺结节检测
- Sun Jiaojiao;孙娇娇;Gong An;龚安
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：由于现有的肺结节检测方法大多局限于形态特征等主观因素所带来的影响,准确有待提升且假阳性高,而现有的深度学习检测方法较基础,虽然有效的降低了假阳率,但准确率也会随之下降.本文提出了结合改进全卷积神经网络(CU-net)和循环3D Faster-Rcnn(3D CFaster-Rcnn)的肺结节检测方法来解决这一问题.首先,使用CU-net对CT图像进行候选区域检测,快速定位出图像的疑似结节区域,输出的图像尺寸不变,通过疑似区域坐标计算,提取候选区域三维立体像素块在3D CFaster-Rcnn模型中进行训练,进行假阳性去除.候选区域检测步骤结节召回率为98.5％,在进行假阳性处理即模型优化后,在假阳率为1.65时得到了92.6％的准确率.与其他方法对比表明,该模型在假阳性较低时取得了较高的准确率,具有较高的应用价值.
21.快速多极子方法在申威众核处理器上的实现和优化
- Wang Wu;王武;Shuyang Wang;王舒扬;Jinrong Jiang;姜金荣;Hongsong Meng;孟虹松
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：快速多极子方法(FMM)是一种求解N体问题的快速高效数值算法,在宇宙学和分子动力学等模拟中具有广泛的应用.申威26010是一款国产众核异构处理器,含260核心(4核组).本文基于申威26010众核架构设计和实现了快速多极子方法,并对核心函数(尤其是最耗时的粒子对相互作用)进行系统优化,包括异步DMA、SIMD向量化、循环展开、内联汇编指令调整等.以粒子对相互作用为例,优化后计算速度相对主核上运行的原始代码提高了约400倍,每个核组上的浮点性能达到250Gflops,即理论峰值性能的32.5％.
22.申威众核处理器上的三对角并行求解器
- Liu Kan;刘侃;Wang Xinliang;王欣亮;Xu Ping;许平;Xue Wei;薛巍
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：三对角方程求解器一种在很多科学与工程领域广泛应用的数值计算核心.目前,CPU、GPU、MIC等主流硬件平台上都提出了高度优化的并行算法,同时有基础数学库支持.但是对于中国自主研发的申威26010众核处理器,还没有一种算法能有效地利用其软件可控缓存和寄存器通信等机制来达到最大化的性能.本文提出了一种分布式CR算法swDCR,来求解大量的、规模不大的三对角方程.其吞吐率相比主核上的追赶法达到了单精度43.9倍和双精度36.7倍的加速,相比从核上的追赶法达到了单精度和双精度均2.07倍的加速.该算法对每个三对角方程使用多个从核并行求解,通过联合多个从核的缓存使得运算过程中所有中间变量都能存储在缓存中,同时利用寄存器通信完成核间数据的高速传输.通过设计线程级数据划分机制,使得向量化的优化效果最大化.swDCR已经达到理论上最小的主存访问量,即读取输入数据和写回输出数据,同时在申威处理器单个核组上可以获得24GB/s的带宽,达到硬件理论带宽的70％.
23.度量空间支撑点选择穷举算法并行化研究
- HU Ziliang;胡梓良;MAO Rui;毛睿
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：为应对大数据的多样性挑战,一种方法是将多种不同类型的数据抽象成一个统一的通用数据类型,进而对不同类型的数据采用相同的算法或系统进行处理.大数据泛构理念是以度量空间作为上述的通用数据类型.但是,由于度量空间中只有距离没有坐标,基于数据坐标的数据处理方法无法直接应用.一种常见的度量空间坐标化方法是选择一些数据作为参考点或支撑点,以数据到各支撑点的距离作为其坐标.在研究中,有时需要计算所有的支撑点组合的性能作为支撑点选择算法的设计参考.从n个数据中选择k个支撑点的穷举法的时间复杂度往往高达O(nk+2).为此,本文从CPU、GPU、MIC三个方面对支撑点选择穷举算法进行了并行优化加速.实验结果表明在8个计算节点和每个计算节点额外配置一块NVidia C2050GPGPU卡的情况下分别达到7倍和181.37倍的加速比,并行效率分别达到99.625％和87.625％,并在单MIC卡情况下达到2.3倍加速比.
24.一种基于Inter-Warp异构性的缓存管理与内存调度机制
- Fang Juan;方娟;Wei Zelin;魏泽琳;Yu Tingwen;于婷雯
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：在GPU中,一个warp内的所有线程在锁步中执行相同的指令.某些线程的内存请求可以得到快速处理,而其余请求会经历较长时间.在最慢的请求完成之前,warp不能执行下一条指令,导致内存发散.本文对GPU中warp间的异构性进行了研究,实现并优化了一种基于inter-warp异构性的缓存管理机制和内存调度策略,以减少内存发散和缓存排队延迟的负面影响.根据缓存命中率将warp分类,以驱动后面的三个组件:(1)基于warp类型的缓存旁路技术组件,使低缓存利用率的warp进入旁路,不访问L2缓存;(2)基于warp类型的缓存插入/提升策略组件,防止来自高缓存利用率warp的数据被过早清除(3)基于warp类型的内存控制器组件,优先处理从高缓存利用率的warp接收到的请求,并优先处理来自相同warp的请求.本文中基于warp间异构性的缓存管理和内存调度机制在8种不同的GPGPU应用中,与基准GPU相比,平均加速18.0％.
25.基于国产十亿亿次超算系统的近连续过渡流区N-S/DSMC耦合算法并行优化研究
- Xu Jinxiu;徐金秀;Li Zhonghua;李中华;Sun Jun;孙俊;Li Zhihui;李志辉;Zheng Yan;郑岩
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：过渡流区气动问题的数值模拟一直是空气动力学领域的困难.本文首先介绍了在已有N-S(Navier-Stokes)解算器和DSMC(Direct Simulation Monte Carlo)方法研究基础上,采用MPC(Mouduler Particle-Continume)耦合技术建立了N-S/DSMC耦合算法,把DSMC方法和N-S方法的应用范围拓展到近连续过渡流区.然后详述了基于国家超算无锡中心的国产十亿亿次超级计算机开展的耦合算法多级并行优化技术,并首次实现了耦合算法的众核并行.测试表明,本文的进程级优化技术取得了超线性加速比;众核级优化受制于原算法特点和系统特点没有取得预期效果,但进行了探讨和分析,为N-S/DSMC耦合算法的众核并行提供了研究和分析依据,为过渡流区高超声速气动特性数值模拟研究提供了有效的途径.
26.基于TCG技术的二进制翻译条件转移指令优化研究
- Zhang Jiahao;张家豪;Shan Zheng;单征;Yue Feng;岳峰;Fu Liguo;傅立国;Wang Jun;王军;Li Mingliang;李明亮
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：在二进制翻译中引入TCG中间表示技术可以实现多目标平台之间的程序移植,同时可以更加方便的引入新型平台,解决新平台对主流平台的兼容性问题.然而由于原有的中间表示在翻译过程中影响了代码的关联度,生成的后端代码中存在较多冗余指令,影响翻译程序的执行效率.本文分析了指令优化可行性,针对条件跳转指令进行优化,通过指令预处理对中间表示进行改进,实现中间表示到后端代码生成由一对多翻译模式到多对多翻译模式的转变,采用指令归约技术,针对条件跳转指令的两种模式CMP-JX与TEST-JX型,分别设计相应的优化翻译算法,并在开源二进制平台QEMU上得以实现.基于NPB-3.3和SPEC2006测试集进行测试,与之前翻译模式进行对于,优化后代码膨胀率平均减少了14.62％,翻译程序运行速度提升了17.23％,验证了该优化方法的有效性.
27.面向大规模海洋数据同化算法的并行实现及优化
- Wan Weiqiang;万威强;Xiao Junmin;肖俊敏;Hong Xuehai;洪学海;Tan Guangming;谭光明
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：海洋数据同化是一种将海洋观测资料融合到海洋数值模式中的有效手段,经过同化的海洋数据更加接近海洋的真实情况,对人类理解和认识海洋具有重要意义.本研究围绕海洋数据同化设计了一种基于区域分解的一般性并行实现方法.在此基础上,提出了一种基于IO代理的新并行算法中.首先,IO代理进程负责数据的并行读取;接下来,IO代理进程对数据进行切块,然后将块数据发送给相应的计算进程;当计算进程完成局部数据同化后,IO代理进程负责收集计算进程的同化结果,并将其写到磁盘.该方法的主要优势在于:利用IO代理进程来负责IO,而不是像传统方法那样让所有进程都来参与IO(直接并行IO),这样可以防止大量进程对磁盘的同时访问,有效避免进程排队所导致的等待.在天河二号集群上的测试结果表明,对于1度分辨率的数据同化,在核心数为425时,提出的并行实现的总运行时间为9.1S,相对于传统串行程序的加速比接近38倍.此外,对于0.1度分辨率的数据同化,基于IO代理的并行同化算法在使用1万核时依然具有较好的可扩展性,并且可将其IO时间最大限制在直接并行IO时间的1/9.
28.一种基于GPGPU架构的并行空间叠加分析方法
- Zhao Yanwei;赵艳伟;Yang Fan;杨帆
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：空间叠加分析是地理信息领域中一类计算密集型的任务,当空间数据规模不断膨胀时,分析的效率将急剧下降.随着图形处理器在通用计算领域的兴起,利用GPGPU技术加速GIS空间操作已经成为一个新的研究热点.为适应GPU并行架构的特点,利用改进的面要素结构PLA,在设备端分别实现基于并行栅格索引技术的高精度并行空间过滤,并将候选集合以细粒度的方式映射到GPU线程阵列上实现并行要素精炼处理,充分发挥了GPU的众核优势,提高了空间叠加的分析效率.实验表明,在处理密集数据的面面叠加分析上,算法的性能较CPU的实现能够提高一个数量级,可有效应用于实时性要求较高的场景中.
29.GA-Sim：一种基于分类和实例学习相结合的作业运行时间预测算法
- Xiao Yonghao;肖永浩;Xu Lunfan;许伦凡;Xiong Min;熊敏
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：在高性能计算作业调度中,许多调度算法依赖于对作业运行时间的准确估计,尤其是以EASY为代表的回填算法,而使用用户提供的作业运行时间往往会降低调度性能.本文提出了一种基于分类和实例学习相结合的作业运行时间预测算法-GA-Sim,该算法在考虑预测准确性的同时考虑了低估问题.在两个实际调度日志上的数值实验结果表明,相较于IRPA和TRlP算法,GA-Sim在取得更高预测精度的同时降低了低估率.丈章对数值实验结果进行了深入的分析,并给出了不同情形下选择恰当预测算法的建议.
30.基于“神威-太湖之光”的LQCD Dslash热点的研究分析与MPI实现
- Zhang Miao;张淼;Zhou Yu;周宇;Chen Jianhai;陈建海;He Qinming;何钦铭;Xu Shun;徐顺;Gong Ming;宫明
- 《2018年全国高性能计算学术年会》 | 2018年
摘要："神威·太湖之光"是中国全自主研发的千万核超级计算机,推动中国早已处在世界前列的超算硬件架构水平又上了一个台阶.然而,中国在超算领域硬件强而软件弱的不平衡局面尚且存在.经过多年的发展,LQCD已成为验证高性能计算机浮点性能的基准测试工具之一,然而在神威平台上尚且没有进行过移植优化,这引起了科学工作者们的关注.本文针对LQCD在神威平台上的移植优化问题展开研究.首先,论述了国内外对LQCD在不同硬件架构上进行并行优化的发展历程.其次,通过对其热点模块Dslash的重构,实现了在神威平台上的成功移植.再次,针对申威26010芯片异构众核的架构和并行模式,实现了从核阵列异构并行、从核LDM与主存之间的DMA通讯、主核之间的MPI通讯及全局归约等操作.最后,实验测试发现了一些重要的性能瓶颈问题,为进一步优化提升整体效率奠定重要基础.同时,本文工作为国产超算平台的推广使用具有积极意义.
31.一种支持DDR4的软硬件结合的访存踪迹收集分析工具集
- Li Zuojun;李作骏;Chen Mingyu;陈明宇
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：随着多核技术的发展,大数据、云计算、人工智能应用的普及,非易失性内存技术的逐步实用以及信息安全的迫切需求,使得作为数据处理核心部分的内存系统的设计显得极为重要,而现有的对于内存系统的分析工具却由于各种缺陷已经无法满足研究人员的需求.本文在原有HMTT的基础上进行硬件级别的重新设计,在最新的DDR4-1600平台上实现了完整、高效、无失真地获取访存踪迹的功能,并在原有系统的基础上进一步提升了工具的可移植性.最后,本文使用该工具对最新的SPEC CPU2017应用进行了访存踪迹的采集测试,并对收集到的访存踪迹信息进行了分析,进一步验证了本文工作的有效性,为今后的各类应用访存行为以及内存系统结构设计研究提供了强有力的工具支撑.
32.基于非结构网格的近海海域污染物迁移三维数值模拟并行算法
- Liao Ziju;廖子菊;Deng Xiaomao;邓小毛
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：浅水环境下的污染物迁移是一个复杂的物理过程,其数值模拟需要耦舍水动力模型和污染物迁移模型进行求解,设计具有良好可扩展性的并行算法一直是具有挑战性的问题.为了实现上的方便,传统数值算法大多基于结构化网格,时间离散则采用显示或者半隐格式.相对而言,非结构网格具有更好的适应性,方便处理复杂的计算区域.本文基于非结构网格,提出了一种模拟浅水环境污染物迁移过程的有限元并行算法.为了使算法具有更好稳定性和鲁棒性,时间方向采用了二阶BDF全隐格式.为了高效求解时空离散后得到的大规模非线性系统,给出了一种基于区域分解的Newton-Krylov-Schwarz算法,包括三个部分;求解非线性方程组的非精确Newton法及线性搜索和可信域技术,求解子区域线性方程组问题的Krylov子空间迭代法,以及用于线性求解器的限制型加性Schwarz预处理算子.随后,对珠江前航道和珠江出海口的污染物扩散过程进行了简单的测试模拟,并在天河二号超级计算机上对算法的并行性能进行了测试,结果显示本文提出的算法在数千核处理器下具有良好的并行可扩展性能.通过测试算法在不同计算时间步长,不同物理参数下的收敛性质,验证了算法具有较好的稳定性和鲁棒性.
33.二维Mesh网络中一种新型的多播路由算法
- Xiao Canwen;肖灿文;娄辉
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：随着半导体工艺发展,众核架构已经成为处理器主流设计方法,片上网络替代总线成为主流互连架构.目前基于二维Mesh网络的维序路由算法是片上网络通用单播通信策略.然而,众核系统中大量的应用采用了多播通信,多播通信的性能对网络性能有极大的影响.而单播路由并不能很好地支持多播通信.本文介绍一个适用二维Mesh网络,基于维度气泡流控的新型多播路由算法,这种新的多播路由策略基于支持单播完全适应性路由的维度气泡路由策略,释放了网络中为避免死锁而预留的网络资源,采用网络分区通信策略,平衡了网络的负载.文章证明了新型的多播路由算法不会发生死锁.基于斯坦福大学开发的BookSim模拟平台,测试了新型多播路由算法的性能.模拟结果显示:这种新型多播路由算法的性能优异于传统的RPM和BAM多播路由算法,相对于BAM路由算法报文平均延迟减少18％,吞吐率提升16％.
34.面向神威-太湖之光的THAFTS-Acoustic广义水动力系数计算模块并行优化策略
- Lv Xiaojing;吕小敬;Liu zhao;刘钊;Jiang LingWen;蒋令闻;Chen Dexun;陈德训;Yang guangwen;杨广文
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：三维声弹性理论及计算方法为海洋弹性浮体结构流固耦合振动声辐射与海洋声传播提供了理论基础,在海洋弹性浮体结构研究中具有很重要的影响.本文根据三维声弹性不同计算阶段计算密度特征,结合神威超算系统,完成了三维声弹性应用软件(THAFTS-Acoustic)的多级并行和优化.本文结合SW2610处理器架构,使用循环分裂、循环合并、DMA通信和计算的相互隐藏及向量化等方法,实现了三维声弹性的众核并行.实验结果表明:三维声弹性多级异构并行具有较好的MPI扩展性能和众核并行加速效果,完成多级异构并行后,核心段加速可达18倍,64进程时程序整体相较原始程序并行程序加速5.5倍,可有效发挥"神威·太湖之光"的强大计算能力,进一步支持THAFTS-Acoustic进行超大规模和更高精度的并行计算.
35.并行任务图的优化调度算法
- Li Yufeng;李于锋;Mo Zeyao;莫则尧;Xiao Yonghao;肖永浩;Xiong Min;熊敏;Zhao Shicao;赵士操;Duan Bowen;段博文
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：科学与工程计算中的很多复杂应用问题需要使用科学工作流技术,超算领域中的科学工作流常以并行任务图建模,并行任务图的有效调度对应用的高效执行有重要意义.本文给出了资源限制条件下并行任务图的调度模型;针对Fork-Join类并行任务图给出了若干最优化调度结论;针对一般并行任务图提出了一种新的调度算法,该算法考虑了数据通信开销对资源分配和调度性能的影响,并对已有的CPA算法在特定情况下进行了改进.通过实验与常用的CPR和CPA算法做比较,验证了提出的新算法能够获得很好的调度效果.本文提出的调度算法和得到的最优调度结论对工作流应用系统的高性能调度功能开发具有借鉴意义.
36.一种缓解矩阵分解并行算法负载不均衡问题的新方法
- Ruixin Guo;郭睿欣;Feng Zhang;张锋;Lizhe Wang;王力哲;Wusheng Zhang;张武生;Xinya Lei;雷辛亚;Erkang Xue;薛尔康
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：现有的并行矩阵分解算法通常采用对矩阵分块的方法,将互不冲突的分块并行地计算.负载不均衡是同步并行算法中常见的问题——各分块中评分数量差异较大,导致线程阻塞和空等待,降低并行效率.本文提出一种"均衡分块"的方法,通过分别调整行块、列块尺寸均衡评分数的分布,达到方体块评分均衡的目标.以块评分数方差衡量"均衡",从理论上分析和证明了均衡分块的可行性;将均衡分块应用于DSGD和CCD++等并行矩阵分解算法,通过大规模分布式实验,验证了该方法能大大提升并行性能."均衡分块"作为一种普适的负载均衡思想,适用于基于矩阵分块、同步的矩阵分解并行算法,具备广泛的应用价值.
37.HSWAP：适用于高性能计算环境的数值模拟工作流管理平台
- Zhao Shicao;赵士操;Xiao Yonghao;肖永浩;Duan Bowen;段博文;Li Yufeng;李于锋
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：在科学研究和工程实际中,集成系列软件形成"建模、计算、分析、优化"一体化应用已经成为目前的数值模拟应用趋势.对于高性能计算资源的运营方而言,为了适应这个趋势需要解决数值模拟工作流建模与高效执行、异构计算资源屏蔽等关键技术问题并提供适用于高性能计算服务的应用接口.HSWAP平台是适用于高性能计算环境的数值模拟工作流管理平台,实现了1)封装数值模拟软件形成适用于Web Portal的服务,并支持交互界面推送;2)支持流程化集成数值模拟软件服务,形成的数值模拟工作流可自动高效执行;3)屏蔽异构计算资源细节,数值模拟工作流可迁移共享;4)支持数值模拟工作流的交互式设计,目前已在中国工程物理研究院得到部署应用.
38.科学计算环境REST风格WEB服务API的认证与授权
- Cao Rongqiang;曹荣强;He Rong;和荣;Lu Shasha;卢莎莎;Wang Xiaoning;王小宁;Wang Yangang;王彦棡;Chi Xuebin;迟学斌
- 《2018年全国高性能计算学术年会》 | 2018年
摘要：通过网格计算和云计算技术,科学计算环境聚合了海量的计算、存储和应用等资源.基于REST风格的WEB服务将这些资源封装为简单易用的开放API服务,支持多学科领域和交叉应用场景的终端软件研发.本文针对用户、开放API服务和终端软件之间的认证与授权问题,提出一种简单认证与授权服务,支持科学计算环境账号在多个WEB应用社区的单点登录,支持用户授权终端软件以用户身份访问科学计算环境的海量资源和用户数据,支持API管理者授权终端能够访问哪些开放API.基于该服务,用户、社区开发人员和API管理人员不再需要担心和解决认证与授权等方面的复杂问题,他们只需要专注于学科领域的业务逻辑和具体的应用场景.该服务已经应用到国家高性能计算环境的通用计算Portal和运行管理Portal,以及计算化学、生物信息等领域的应用社区,并取得了良好效果.