首页>中文会议>工业技术>自动化技术与计算机技术>2015全国高性能计算学术年会
2015全国高性能计算学术年会

2015全国高性能计算学术年会

  • 召开年:2015
  • 召开地:无锡
  • 出版时间: 2015-11-10

主办单位:中国计算机学会

会议文集:2015全国高性能计算学术年会论文集

会议论文

热门论文

全部论文

全选(0
  • 摘要:异构多核处理器通常由高性能的大核和低能耗的小核组成,在其上进行合理的线程调度可以有效地提高资源利用率,节省能耗.之前论文提出的大小核上的公平性调度并没有考虑核上有不同频率/电压状态的情况,而现在支持DVFS调节的处理器越来越普遍,因此很有必要将线程间公平度的计算进行扩展和改进.论文提出了在每个核有若干种不同的DVFS状态时异构多核处理器上线程公平度的计算方法,对已有的性能预测模型进行改进,采用自适应算法调整模型中的系数,并在此基础上提出了一种调度策略,维持各线程之间的公平度和处理器功率满足提前设定的阈值,同时选取能效最优化的配置,实现减小应用运行能耗的目的.实验结果表明,与论文提出的调度策略相比,采用static、DVFS-only、swap-only三种调度方法时,在总的运行时间几乎相同的情况下,平均要多产生20%以上能耗,对于有些应用甚至达到了50%.
  • 摘要:云计算与虚拟化技术能够给高性能计算用户和服务提供商带来诸多好处,能够有助于解决安全隔离性等难题.认为高性能计算云服务将是未来的发展趋势.然而,虚拟化性能损失和资源管理复杂性等问题给高性能计算应用向云计算迁移提出了巨大挑战.提出了一个基于KVM虚拟化和OpenStack的高性能计算云平台——HPCStack.通过对KVM进行性能优化,降低虚拟化性能开销,提高性能隔离能力.基于计算资源池实现物理资源的整合、抽象与调度,通过两级调度满足保证服务质量和提高资源利用率的双重目标.此外,针对平台中数据存储的特点,提出了异构的存储方案以满足容量和I/O效率需求.对HPCStack中的独占式虚拟机进行了网络基准性能和应用性能测试.测试结果表明,经过优化后的虚拟机能够达到与物理机相近的性能.特别地,单台24个vCPU、110GB内存的虚拟机的Linpack效率能够达到73.66%,仅比相同配置的物理机低3.17%,ABAQUS应用的性能仅比物理机低3%,FLUENT应用的性能仅比物理机低1%.
  • 摘要:随着计算节点性能的不断提高,互连网络逐渐成为限制大规模计算机系统性能的瓶颈.互连网络核心部件交换芯片可提供的聚合网络带宽受到工艺和封装技术的限制.从网络结构与交换机结构的协同设计思想出发,本文提出了一种在交换机聚合带宽限定的条件下的多轨分割网络结构和设计方法.通过数学建模和网络模拟实验,分析了该多轨分割网络的性能边界.评测结果表明,该网络可将短消息(长度小于128Byte)的平均延迟性能提高10倍以上,为以短消息占多数的数据中心网络的性能优化提供了新思路.
  • 摘要:在结构网格数值模拟应用中,stencil计算是一种非常重要的计算类型,广泛用于求解偏微分方程的数值解.近几年来,由于功耗的限制,GPU和MIC等加速器变得越来越流行.许多主流的超级计算机都采用了加速器.然而,这给应用程序开发者带来了极大的挑战.本文提出了FRESH,一个针对异构体系结构的,面向实际数值模拟应用的结构网格stencil计算编程框架,其包含FRESH领域编程语言(FRESH DSL)和源源编译器.应用开发者只需用FRESH DSL编写一次代码,源源编译器将其翻译成CPU,GPU和MIC所接受的程序,并做相应的优化.FRESH DSL采用与Fortran相似的语法,有利于遗产Fortran程序的移植.此外,还加入了便于用户编程和利用编译器优化的语法.将一个实际应用FRESH DSL改写,过程中只修改了少量代码.相对于原始Fortran串行程序,FRESH生成的代码在CPU、GPU和MIC上分别得到了1.47、16.68和15.32倍的加速.
  • 摘要:基于200万亿次/秒的"天河"高性能计算机,采用数以亿计的计算网格和亚跨超CFD软件平台数值模拟了NASA半展长梯形翼高升力构型的复杂流场,主要目的是考核TRIP软件的大规模并行计算效率,研究超大规模网格生成策略和网格规模对梯形翼高升力构型气动特性的影响.本文采用的风洞试验是1998年在NASA Ames 12英尺增压风洞中完成的,试验结果包括了总体气动特性、典型站位的压力分布等.研究表明,采用数以亿计的超大规模计算网格和1024个处理器核,TRIP软件的并行效率依然可以达到90%左右;网格规模达到亿的量级后对失速迎角前的气动特性影响较小,且计算结果与试验结果取得了较好的一致.
  • 摘要:MapReduce等计算框架的出现开启了大数据处理新纪元,以Hadoop、Spark为代表的大数据处理系统具有大吞吐率、跨平台、高可扩展的优势,并得到广泛应用.然而,为避免与具体的操作系统、硬件平台绑定,这些系统的设计与优化集中在计算模型、调度算法等方面,无法充分利用底层平台的优势.本文提出了一种松耦合、面向底层平台的,借助存储节点、执行节点本地操作系统甚至硬件机制的大数据处理系统本地化设计与优化方法,并提出基于锁无关机制的存储底层优化策略和基于指令超级优化的执行引擎底层优化策略.以此为指导,以Hadoop作为兼容和改进的对象,实现了原型大数据处理系统Arion.Arion既能保持Hadoop的跨平台、高可扩展的优势,又能消除任务执行的瓶颈,其本地化的设计与优化手段对非Hadoop平台同样有效.通过在原型系统上的实验证明,Arion能够提升大数据处理任务的执行效率,最高达7.7%.
  • 摘要:随着计算机性能的不断提高,大规模数值模拟的规模成倍增长.即使在大型可视化服务器上,针对这些模拟结果的大规模数据可视分析也难以进行流畅的交互.本文提出基于图像的交互分析方法并开发相应系统,可以预先生成多视角的可视化结果图像,基于这些图像可以在普通设备上实现三维可视化结果的交互分析与展示,可以交互改变观察视角,动态展示数值模拟全过程的可视化结果,这可以有效提高数值模拟的效率.
  • 摘要:图像半色调化是一种影印技术,并被广泛应用在图像处理领域中.由于高计算及访存复杂度以及图像规模的增大,传统的串行半色调化算法已经不能满足实时处理的需求,而针对该算法的并行加速研究相对较少.因此,本文面向CPU-GPU异构系统,对半色调化算法的并行实现及性能优化进行了深入研究.首先采用一种泊松碟方法消除数据依赖关系,从而使算法可在GPU上高效并行;然后采用共享内存优化;线程任务粒度细化、基于常量存储器的数据广播、基于纹理存储器的多维缓存优化以及归约操作优化等一系列优化方法,深度挖掘GPU的计算性能.通过实验测试表明,在Intel Xeon CPU+Tesla K20异构平台上,并行优化后的图像半色调化算法相对于优化前达到了约7~10倍的性能提升;相对于串行程序达到了约122~150倍的性能提升.在面向移动设备的Tegra K1异构平台上,并行优化后的算法相对于串行程序达到了约37~44倍的性能提升.
  • 摘要:结构网格自适应程序需要使用矩形区域求差集算法计算网格层间数据依赖关系和网格层嵌套关系.原有的矩形区域求差集算法时间复杂度较高,成为该类应用大规模并行计算可扩展性能瓶颈.本文利用分而治之的方法,构造了近似线性时间复杂度的矩形区域求差集快速算法,并利用区域分解实现了该算法的并行计算.分别针对规则矩形区域和多层自适应网格的非规则矩形区域求差集问题,验证了该算法的效率,结果表明,该算法具有近似线性计算复杂度,对于大规模计算问题,加速效果显著.
  • 摘要:针对传统的栅格数据存储策略不能满足分布式计算环境下粗粒度数据访问需求,应对海量栅格数据计算时效率低下的问题,结合分布式文件系统的存储特点,同时考虑地图代数算子在Map/Reduce阶段以栅格瓦片为单位的计算特点,提出一种基于Hadoop分布式文件系统的栅格瓦片存储策略.围绕栅格数据瓦片分割、压缩瓦片数据组织与存储、分布式文件输入输出接口改进等方面对该存储策略加以实现,并使用基于该存储策略的地图代数局部算子的分布式计算流程加以验证.理论分析与实验结果表明,该策略能够显著提高分布式计算环境下空间分析算子的运算速度.
  • 摘要:谱聚类算法由于其可识别非凸数据分布、可有效避免局部最优解、不受数据点维数限制等优点,在许多领域得到广泛应用.然而,随着数据量的增大和数据维数的增多,在保证聚类准确性的前提下,尽可能降低计算时间将变得非常必要.此外,影响谱聚类算法聚类质量的因素除数据集本身外,还与所采用的求解距离矩阵的方法、相似性矩阵的尺度参数、Laplacian矩阵形式等多种因素相关,针对以上问题,首先对于大规模数据问题,将MPI(Message Passing Interface)并行编程模型应用于谱聚类算法,然后利用t-最近邻方法对谱聚类算法中较大维数的Laplacian矩阵进行近似转化,同时将局部尺度(local scaling)参数对算法中的尺度参数进行自动调节.基于上述分析,提出了一种谱聚类并行实现算法,即稀疏化局部尺度并行谱聚类算法(SLSPSC,Sparse Local Scaling Parallel Spectral Clustering),并在4个数据集上进行了测试,并与现有的并行谱聚类算法(PSC,Parallel Spectral Clustering)在运行时间和聚类质量两方面做了比较分析.实验结果显示:该算法降低了求解Laplacian矩阵的总时间,同时部分数据集聚类质量得到较大提高.
  • 摘要:随着云计算和大数据应用的快速发展,数据中心网络架构面临着高能耗,布线难,扩展性差、高延迟等问题,这对数据中心网络设计提出了前所未有的挑战.规则的网络架构具有布线简单、扩展容易等特点,但是随着网络规模的扩大,网络性能下降明显,如网络直径和平均路径长度增长较快.相比之下,在相同的规模下,随机网络具有较小的网络直径和平均路径长度,且无规则架构具有较低的构建成本,但由于布线复杂的问题,随机网络在构建和扩展上难以实现.因此,本文提出在规则的物理网络架构上构造相应的虚拟随机拓扑.运用光交换技术能够在规则的物理架构上构建出任意网络拓扑,而网络拓扑的变换和扩展可以只通过变化光路中的波长数量和连接关系来实现.因此随机网络的组建就转化为用多少波长来建立需要的随机拓扑的架构.通过在2D-Torus和3D-Torus网络上的实验,得出结论,在2D-Torus网络下用600多个波长能够得到一个网络直径为2,支持2万台服务器的随机网络.且在规模相同的情况下,基于3D-Torus网络构建的随机拓扑所需的波长数只占到2D-Torus网络的60%~65%.随着Torus维度的增加,4D-Torus、5D-Torus所需的波长数相应的不断减少.
  • 摘要:由于部署方便、维护简单并且不需要搭建自己的私有机房,云数据中心正在成为大多数互联网公司部署应用程序的首选,尤其是对于初创公司和中小规模的公司.在以基础设施为服务的云环境里,互联网公司可以根据应用程序的需要动态租赁云基础设施,从而节省预算开支,并保证应用性能.然而,在现有的业界实践中,云服务提供商提供的负载均衡和资源伸缩服务只能监控虚拟机的使用状态,并不能监控应用程序的运行状态,因此无法准确根据应用程序的服务需求自适应变换资源规模.并且,现有的文献和实践中,也很少有从云基础设施使用者的角度出发,为使用者节省基础设施租赁费用和高效使用已租赁基础设施的研究.本文据此提出了一种面向基础设施云环境下多层应用的费用高效的资源管理方法,在降低用户费用的同时,还能充分利用花费费用提高应用程序性能.最后,通过仿真的方法比较本文所提方法与业界实际使用的方法,结果表明,本文所提方法不仅能够提高应用程序服务质量和服务性能,也能较大地降低公司在基础设施租赁方面的费用.
  • 摘要:并行文件系统性能是影响高性能计算效率的重要因素.混合并行文件系统H2FS是应用于TH-2系统的高性能用户层虚拟文件系统,通过将本地存储和共享存储相融合,为用户提供高性能并行数据访问.TH-Express2是TH-2系统的高性能互连网络,具有低延迟、高带宽、可靠传输等特点.依托TH-Express 2,设计并实现了H2FS中的高速通信模块FSE.FSE包括三个层次,基础层、核心层和处理层.FSE采用了短报文通信MP和RDMA相结合的方式,充分利用TH-Express 2低延迟、高带宽工作特点,通过优化注册内存、采用信用流控、以及多线程传输等技术,优化数据传输效率,实现高可扩展性数据访问.在TH-2子系统上的实际测试结果表明,FSE可以充分发掘TH-Express 2的带宽性能,使得H2FS具有较高的数据访问带宽和元数据性能,并具有良好的可扩展性.
  • 摘要:随着存储数据量快速的增长,分布式文件系统正在从传统的副本方式转向纠删码的方式,来保证系统的数据可靠性.但受限于恢复过程会涉及到多个块的磁盘读取和网络传输,纠删码的恢复开销很高.这给分布式存储系统带来一个重大的问题——高节点失效恢复成本.针对这个问题,之前的论文都是提出一种新的纠删码编码方法来降低恢复开销.而本文提出了一种流水线化的节点失效恢复的方法,能够将节点恢复过程中的计算流水线化,从而提升恢复时的速度.在自主开发的分布式文件系统ECFS中实现了流水线化的节点恢复方法,通过测试,方法与传统的数据都到达之后再进行恢复过程的解码相比,整体恢复时间降低了26%.
  • 摘要:虚拟机在线迁移是云计算数据中心的一项关键技术,广泛应用于负载均衡、能耗管理、系统容错及软硬件的在线维护等场景.当前主流的几种虚拟机迁移算法对于不同应用具有不同的适宜性.论文提出应用特征感知的自适应迁移算法选择决策模型,使负载和迁移算法之间总能最佳适配.选取了三种典型的虚拟机迁移算法纳入到该决策框架下,分别是预拷贝(pre-copy)算法、后拷贝(post-copy)算法以及CR/TR-Motion算法.通过建立这三种虚拟机迁移算法的性能预测模型,并对负载的应用特征进行在线提取和分析,基于模糊综合评判方法来实现不同应用和迁移算法之间的最佳适配.通过典型的实例分析,验证了模糊综合决策理论应用于虚拟机迁移算法的选择总可以使迁移的性能达到最优.
  • 摘要:耦合器是地球系统模式中的重要组成部分,用于连接各个分量模式.本文针对地球系统模式中的耦合接口进行编程操作,使得分量模式的代码从耦合系统中分离出来,从而使得模式专家只需要了解耦合接口而不再需要了解耦合器的复杂的内部实现.为此本文提出了两种耦合接口技术,一是耦合接口代码复用技术,将各个分量模式形式相似的代码段复用为统一的接口;二是耦合接口代码自动生成技术,根据统一的模板文件,模式专家只需要在配置文件中提供相应的变量信息,分量模式的代码便可通过模板文件自动的生成出来.基于以上工作,本文将改写耦合接口后的地球系统模式部署到中国科学院超级计算机"元"上,表明经过代码复用及自动生成后的耦合接口与原来代码模拟结果一致.
  • 摘要:可靠性是高性能计算领域的经典问题之一,存在许多解决方法,检查点技术是实际使用的标准方法.近年来基于内存的双备份检查点技术备受关注,它利用计算资源上闲置内存空间保存本地任务状态,同时设计的双备份机制进一步提高容错能力.观察分析发现该方法在恢复过程中存在大量多余的检查点文件拷贝.本文基于内存双备份检查点技术提出一种故障结点对位替换策略,能够将检查点文件拷贝次数减少到等于故障结点数,模拟实验和真实应用都表明本方法的有效性。
  • 摘要:材料科学是高性能计算应用最广泛的领域之一.本文描述了材料科学中计算模拟的研究对象、理论方法、计算算法和并行实现,并介绍了材料科学领域应用较为广泛的相关计算软件.
  • 摘要:本文在ARMv8 64位多核处理器上基于OpenBLAS首次实现了四精度矩阵乘法(QGEMM).提出了两种方法分别实现了QGEMM,方法一为利用GCC编译器对long double数据类型的支持来实现QGEMM,方法二为采用double-double数据格式及其相应的四精度乘法DD-MUL和加法DD-ADD来实现QGEMM.文中以方法一为测试基准,就不同矩阵规模下测试结果精度和时间与方法二进行比较.实验结果表明:方法二和方法一得到近似相同精度的数值结果,但方法二的性能是方法一的2.5倍.方法二在串行和并行情况下性能分别可达到机器峰值性能的11.78%和11.72%.
  • 摘要:交替方向隐格式(Alternating Direction implicit,ADI)是常见的偏微分方程离散格式之一,目前对ADI格式在计算流体力学(Computational Fluid Dynamics,CFD)实际应用中的众核并行工作开展较少.以一个求解多区结构网格流场的CFD应用为背景,通过分析ADI求解器的特点和计算流程,在NVIDIA Kepler K20c GPU和MIC平台上开展了ADI求解器的高效众核并行方法研究.针对GPU平台,为最少化CPU/GPU间的数据传输,实现了ADI求解器的全GPU化,设计了基于网格点与网格线的两类细粒度GPU并行算法,讨论了若干性能优化方法.针对MIC平台,从任务并行、数据并行和数据重用三个方面提出了一系列性能优化方法,并采用性能分析工具LIKWID("Like I Knew What I'm Doing")收集硬件性能指标,以验证这些性能优化方法的并行效果.采用128×128×128网格规模的单区结构网格算例,在GPU平台上,ADI求解器的GPU并行性能相对两个Intel Sandy Bridge CPUs,取得了5.5倍的加速比;在MIC平台上移植优化后的程序性能提高了1.7倍.最后还对GPU和MIC平台上的性能进行了对比分析,为同类应用问题的众核选择提供借鉴与参考.
  • 摘要:广义极小残量法(GMRES)是最常用的求解非对称大规模稀疏线性方程组的方法之一,其收敛速度快且稳定性良好.Intel Xeon Phi众核协处理器(MIC)具有计算能力强,易编程,易移植等特点.本文采用MPI+OpenMP+offioad混合编程模型将GMRES算法移植到MIC集群平台上.采用进程间集合通信异步隐藏、数据传输优化、向量化以及线程亲和性优化等多种手段,大幅提升了GMRES算法的求解效率.最后将并行算法应用到"局部径向基函数求解高维偏微分方程"问题的求解中.测试表明,CPU节点集群上开启32个进程,并行效率高达71.74%,4块MIC卡的最高加速性能可达单颗CPU的7倍.
  • 摘要:数值模拟软件研发过程中,不同模块之间在设计和实现上具有共同性的特点,编程人员通过拷贝、修改的方式编写了很多重复性代码.如果修改不当,这种手工编程方式很可能增加人为引入错误的数量,从而浪费更多的代码调试时间.为解决以上问题,本文以非结构网格应用为例,设计并实现了一种面向非结构网格应用的数值模拟串行程序图形化编程工具.该编程工具融合图形化编程与代码自动生成技术,可以支撑面向非结构网格的数值模拟应用程序实现标准化和规范化,并且集成编译、调试、运行等功能.编程者只需编写数值计算子程序执行体部分的代码,其余代码通过编程工具自动生成.实际应用表明,该工具可以有效提高软件开发效率,降低用户编写数值模拟程序的难度.由于编程工具生成的代码规范统一,只需少量修改,就可基于并行编程框架实现大规模并行,并且系统的维护效率也得以大幅度提高.
  • 摘要:集合通信性能是影响并行程序并行效率的重要因素之一,但对于大规模并行计算机上不同类别集合通信的评测和理论分析仍较为缺乏,许多应用程序的通信模块设计和使用不合理.基于某国产并行机平台,利用IMB测试程序,对各典型集合通信性能进行了分析,并基于现有通信模型和算法进行理论拟合.结果显示:不同类别的MPI集合通信操作的性能差异很大,并且许多集合通信的性能在超大规模下与理论差距很大,一方面反映出现有理论和模型的不足;另一方面也体现出,无论是集合通信的优化,还是基于集合通信的特征进行应用程序的通信模块设计,仍然大有可为.
  • 摘要:开发非协调拼接结构网格并行程序在数据结构、并行技术、程序优化等方面均面临一定的困难.为解决上述困难,通过抽取关键技术并封装在JASMIN框架中,实现了对非协调拼接结构网格并行计算的支撑.本文详细了介绍了JASMIN框架中非协调拼接结构网格并行支撑的关键技术及其实现,包括:数据结构、网格块间拼接关系描述方法、通信构件和负载平衡.数值实验表明,JASMIN框架可以初步地支撑了非协调拼接结构网格的并行计算.
  • 摘要:动力学蒙特卡洛算法(KMC)是一种高效的以随机抽样方式模拟体系演化过程的算法.近几年高性能集群的快速发展,KMC并行算法在模拟材料辐照损伤、晶粒生长、薄膜生长和金属表面气体吸附等领域得到了广泛应用.然而,随着KMC模拟的时间尺度和空间尺度规模不断扩大,其并行算法在大规模集群上表现出较差的性能和可扩展性.本文通过实验分析得出,邻居进程间点到点通信引起的拥塞问题是影响基于区域分解KMC并行算法主要性能瓶颈.为了解决上述问题,本文通过进程拓扑结构的构建以及邻居集合通信操作,对通信调度进行优化以缓解通信拥塞.实验结果表明,相对于传统的基于点到点通信实现算法,通过邻居集合通信优化后KMC并行算法具有更好的并行性能和可扩展性.其中在32个Xeon E5-2680节点(共计32×20=640处理核)上,优化后KMC并行算法执行时间减少了12%,通信时间缩短了25%,且相对于单节点(20处理核)执行达到了23倍加速比.
  • 摘要:智能优化算法作为解决大规模集成电路芯片设计中布图规划问题的经典方法已被研究多年.本文结合异构三维片上网络布图问题的具体特点,采用B*-tree来间接描述布图问题中的解结构,针对模拟退火收敛速度慢,优化效率低的缺点,对搜索策略和概率性的劣向转移作出了改进,并将改进后的模拟退火思想引入粒子群优化算法中,使结合后的算法集合了粒子群并行计算的特点和模拟退火能够实现全局优化的特点.通过仿真实验验证,本文提出的该混合改进算法在解决布图问题中要优于传统的模拟退火算法.
  • 摘要:如何准确可靠模拟航天器跨越飞行高稀薄流到连续流各流域复杂气动力/热绕流现象与变化规律?是航天工程研制发展关键基础科学问题.通过对Boltzmann(玻尔兹曼)方程碰撞积分物理分析与可计算建模,提出可描述自由分子流到连续流各流域复杂高超声速流动输运现象统一的Boltzmann模型方程,发展适于高、低不同马赫数绕流问题的离散速度坐标法与直接求解分子速度分布函数演化更新的气体动理论数值格式,建立模拟航天器再入飞行各流域复杂气动问题统一算法.通过对直接求解多相空间Boltzmann模型方程数值格式变量依赖关系、数据通信与并行可扩展性分析研究,提出新型的基于离散速度空间区域分解高性能并行计算数学模型,并在小、中、大规模64~1024、1024~8000、512~32768、512~80750CPU及众核异构计算机3125~112500处理器核并行算法测试,建立稳定运行于国产超级计算机可扩展大规模并行算法与航天再入各流域高超声速气动力/热绕流问题统一算法并行计算应用研究平台.通过对全飞行流域不同Knudsen数、不同马赫数三维球体、"神舟"飞船返回舱、货运飞船等跨流域高超声速气动力/热绕流问题大规模并行计算研究,证实求解Boltzmann模型方程统一算法与不同尺度并行计算可靠性.提供了一条依托我国自行研制超级并行计算机系统,解决航天再入全飞行流域高超声速气动力/热绕流问题高性能并行计算研究之路.
  • 摘要:多核并行程序的调试是一个公认的困难问题,困难主要来自于程序执行的不确定性.可重现调试提供了消除程序中不确定性的能力,但是现有的可重现调试解决方案都无法应用于商用的软硬件平台中,且进行调试所带来的性能损失会随着并发度的增加而超线性的增长.本文提出了一种基于运行快照的新型并行程序调试方法,Snapshot Debug Tool-SDT.该方法以离线的断点设置、运行快照捕捉和运行快照细化为基础,提出了一套可以指导用户由粗到细发现错误的调试过程,并在通用的软硬件平台上进行了实现.实验结果显示,在8线程的并发条件下,使用SDT调试所带来的时间性能损耗平均为51.88%.同时当线程数增长4倍时,使用SDT所带来的额外时间消耗最多增长1倍,具有很好的可扩展性.
  • 摘要:基于领域编程框架开发数值模拟并行应用程序是一种新模式.基于该模式,已研制了一批可高效使用数千上万核的应用程序.但是,框架的普及应用还存在一些困难,基于框架编写并行应用程序需要掌握领域编程框架的编程原理、精通基于构件化的并行编程接口、熟悉C++/Fortran混合编程等.学习新的编程语言和开发技术需要花费额外的精力,对于领域专家而言,软件研制还存在相当大的难度.围绕上述难题,基于领域编程框架的构件化编程技术,提出一种图形化编程方法:通过图形界面交互定制并行构件及组装构件,结合代码自动生成引擎,自动生成指定编程语言的应用代码,支撑领域专家只需用C/Fortran编写数值计算子程序就可快速研发并行应用程序.实际应用表明,该编程方法可显著降低并行程序的研制难度,提高软件研制效率.
  • 摘要:网络服务的迅速兴起带来了一种新型负载—高通量应用.实验分析可知,在高通量应用中,存在相当一部分的细粒度的访存操作,例如1 Byte或2 Bytes.然而,在传统的片上网络设计中,为了得到更高的传输带宽,路由器之间的链路宽度通常设定为128比特甚至更宽.当链路进行数据传输时,无论传输的数据包有多大,整个链路带宽都会被全部占用.因此,传统片上网络的高宽度带宽已经不适于高通量应用的细粒度访存,会带来严重的带宽浪费,最终导致资源和功耗的浪费.鉴于此,本文提出了高密度片上网络(HD-NoC)设计机制.在高密度片上网络中,传统的高宽度链路被分割成低宽度自治子链路,例如8比特或16比特宽.自治子链路可单独传输不超过自身宽度的小数据包,或多个自治子链路共同传输大数据包.在HD-NoC设计基础之上,提出了贪心传输机制(GTM).在贪心传输机制中,每次数据包传输时,会选择尽可能多的数据包将链路带宽全部利用起来,以此提高传输链路的有效利用率.实验表明,对于高通量应用,高密度片上网络相对于传统片上网络平均吞吐率提高了22.2%,其中对于Grep应用来说,吞吐率提高可达32.4%;对于传统SPLASH-2应用,平均吞吐率提高了13.5%.
  • 摘要:受到部件亚健康、共享资源的竞争使用、操作系统干扰等因素的影响,运行中的高性能计算机各部件的实际输出性能存在波动现象.随系统规模、数值模拟程序并行度的增大,局部部件性能不稳定性的影响会被放大,从而严重制约数值模拟程序的性能及可扩展性、降低系统运行效率.在此背景下,高性能计算机的性能不稳定现象成为高性能计算机系统、数值模拟应用双方共同关注的问题,针对该问题的深入研究对于未来E级海量并行场景的系统软硬件设计、大规模数值模拟应用程序的设计均具有参考意义.本文从性能不稳定性的量化、原因定位、影响评估及消除策略四个方面剖析相关研究的现状和发展动态:1)从计算、访存、通信三方面介绍高性能计算机性能不稳定度的量化方法;2)分析各类性能不稳定因素的原因及其定位方法;3)针对各类性能不稳定性原因,从理论分析、实际测量、仿真分析三个方面梳理系统性能不稳定性对数值模拟应用的影响评估机制;4)从系统管理机制、系统软件研制、并行程序设计等方面总结降低性能不稳定影响的各类手段.最后,分析研究现状与实际需求的差距,并展望未来的研究思路.
  • 摘要:排序是计算机科学中一个古老而经典的问题,在数据处理、网络安全等很多领域都有重要的应用.近年来,大数据浪潮席卷全球,一些数据密集型应用对排序性能的要求也越来越高.面对上述需求,结合当前对大规模系统性能影响越来越大的功耗墙问题,提出了一种基于蚁群计算平台的层次化排序结构,利用全流水的插入排序得到小规模有序序列,通过共享存储的First-In-First-Out(FIFO)结构、消除控制依赖的归并树和多节点流水线实现多级归并得到系统级有序结果.与CPU、GPU平台上的排序算法相比,不仅扩大了可排序数据规模,提高了数据排序的吞吐率,在能效上也有10倍以上提高.
  • 摘要:面对日益增长的海量DNA序列数据,通用的压缩技术在压缩率以及压缩时间上都难以应付.本文利用DNA序列之间高度相似的特点,在参照序列索引的构建和查询方面进行了深入研究,以提高系统的压缩性能,提高系统的压缩率.针对FASTA格式的长序列数据,当前主要的压缩工具分为无参照压缩和有参照压缩,参照压缩相对于无参照压缩,利用了DNA序列的高度相似性,提高了压缩率,节省了存储空间,但索引序列占用了较大的内存空间,造成了系统瓶颈,查询比对重复率较高影响执行效率.因此,本文提出一种通过取样构建哈希表的索引设计和查询方法,设计和实现了一个分布式压缩系统DNA-DCS.测试表明,单机环境下相对于Gzip、Bzip2和CaBlast算法,压缩率提高了96%,压缩速度分别是这三者的4倍、2倍和14倍,吞吐率为200MB/s.在分布式环境下,性能与节点数目呈线性关系,波动低于5%,表明了系统良好的扩展性.
  • 摘要:针对当前数据中心网络规模巨大、流量行为复杂等的特点,研究大规模数据中心网络测量方法,定位当前网络性能瓶颈变得日益重要.论文分析了当前网络测量研究现状,提出了一种基于分布式自动化测量的性能瓶颈分析方法(AM-DMPA),该方法能自动生成测量任务集合,下发测量任务,并能根据测量结果不断收敛待测网络规模,快速定位网络中的性能瓶颈链路.在典型的大规模数据中心天河2中,选取六种不同规模的网络环境,使用AM-DMPA方法和传统的网络测量方法进行对比,AM-DMPA方法能够更快速发现和定位网络中性能瓶颈链路.
  • 摘要:提出一种新型多素数存储系统,能显著改善混合存储立方体主存系统的跨步访问性能.该系统的构建以素数存储系统理论为基础,最大限度解决了跨步访问冲突问题,而且系统中所有物理地址都存在逻辑地址与之对应,可有效利用全部存储容量.此外,该系统的地址转换计算简单,能够以较低的硬件代价实现.理论分析和实验结果都证实了该系统正确有效.
  • 摘要:科学与工程应用对计算性能要求的不断增加使得异构计算得到了迅速发展,然而CPU与加速单元之间没有共享内存的特点增加了异构编程难度,编程人员必须显式的指定数据在不同设备之间的传递情况.全局数组(GA)模型基于聚合远程内存拷贝接口(ARMCI)为分布式存储系统提供异步单边通信、共享内存的编程环境,但ARMCI接口拓展的复杂性使得GA不能根据特定计算平台的特点迅速在该平台上实现.为在CPU+英特尔至强融核(MIC)的异构系统中高效利用GA模型从而简化异构编程难度,本文提出了对GA模型的拓展--CoGA.CoGA基于MIC上的对称传输接口(SCIF)实现对CPU和MIC的内存管理,并结合SCIF远程内存访问特点优化CPU与MIC间的数据传输性能.通过数据传输带宽、通信延迟和稀疏矩阵乘问题的测试,证明了CoGA简化编程并优化数据传输性能的有效性和实用性.
  • 摘要:对于网络密集型应用,提高虚拟机域间通信效率十分重要.传统虚拟机域间通信不区分通信双方是否处于同一物理计算机上,均采用基于TCP/IP的通信方法,性能损耗大.可通过判断通信双方的共生(co-located)关系,使得位于同一物理计算机上的虚拟机基于共享内存进行快速通信,而处于不同物理计算机上的虚拟机仍沿用TCP/IP模式.目前,研究人员提出了多种优化方案,也取得了显著成果,但在虚拟机间通信效率、虚拟机在线迁移支持、编程透明性保证等方面仍存在不足:或者性能损耗较大,或者不具备应用层编程透明性,或者需要给内核加patch,或者不支持虚拟机在线迁移.为此,设计并实现了一种共生关系感知的虚拟机域间通信优化机制——XenVMC:该机制性能足够高;支持虚拟机在线迁移;满足应用层编程透明、操作系统内核和VMM透明;同时支持TCP协议和UDP协议.Netpeff测试结果表明,在TCP RR、UDP_ RR、TCP_STREAM和UDP STREAM这四个选项下,与传统的TCP/IP通信机制比较,XenVMC机制下共生虚拟机间通信的峰值性能分别是其10.9倍、11.9倍、3.27倍和9.76倍,平均效率分别是其9.88倍、10.07倍、4.68倍和2.16倍,这验证了在提高数据截获层次,缩短通信路径的情况下,能够显著提高共生虚拟机间通信性能.
  • 摘要:随着多核架构的发展和普及,NUMA多核架构凭借其本地访存低延时的优势,被各大商业数据中心以及科学计算集群广泛采用.NUMA架构通过增加多个内存控制器,缓解了多核架构下对同一个内存控制器的争用问题,但同时也增加了内存管理的负担.Linux的系统开发者为了实现充分利用NUMA本地访存低延时的特点,在给一个进程分配内存时,选择进程当前正在运行的NUMA节点作为分配内存的目标节点.这种分配会导致进/线程之间共享内存的不公平.针对这一问题,本文设计了一种保证NUMA架构内各内存节点间访存延时平衡的内存分配策略,并在Linux系统中实现和验证.实验结果表明,与Linux默认的内存分配策略相比,进/线程间的不公平性平均降低了15%(最多32%),并且各进/线程的性能没有较大抖动.
  • 摘要:循环展开是一种非常重要的循环变换技术,不仅能够直接提高程序的性能,而且可以为其它优化创造优化机会.当前编译器通常使用性能模型来确定循环展开决策,但是性能模型很难考虑循环展开对其他优化的影响,导致编译器选择的展开决策可能不是最优的.为了弥补性能模型的问题,很多商用编译器提供指导语句接口方便用户改变展开决策.但是最新版本的GCC编译器仅仅提供了参数方式来改变循环展开决策.在实际调优过程中发现,用户难以设置参数控制编译器选择用户期望的循环展开决策.针对这种情况,深入分析了GCC当前的指导语句框架,为GCC扩展了循环展开指导语句,方便用户对程序调优.然后结合参数调优方式与指导语句调优方式,对SPEC 2006和NPB程序集进行基于循环展开的调优.调优实践中发现指导语句接口使用方便,一些程序取得较大性能提升.同时根据调优结果分析了循环展开在实际程序中影响性能的原因。
  • 摘要:在野外、远洋、航空等若干特殊环境中,由于没有稳定快速的回传网络或大规模存储,迫切需要高性能计算机在本地执行计算.然而,在这些特殊环境中不仅电力供应有限、空间有限,而且工作的地点需要经常变化,这对高性能计算机的部署和使用提出了许多挑战.为了应对这些挑战,本文提出了一种面向移动化部署的高性能计算机系统,并在80cm x 65cmx 55cm的机箱尺寸中实现了200个计算核心(浮点计算能力高达3.52Tflops)、2.56TB内存及30TB存储的原型系统.本文提出的系统架构主要具有以下特点:1)为满足不同的计算需求,支持异构处理器;2)为了加速节点间的通信效率,提出了一个基于PCIe扩展的互连结构;3)为减少占地空间和功耗,所有计算子系统高效地共享一个I/O子系统;4)为保证系统的高可用性,提出了一个高效的自循环水冷系统;5)为提高系统的可管理性,开发了一套基于OpenStack的管理系统.实验表明,全系统Linpack效率可以达到85%,最高功耗不超过2KW,运行时温度低于41℃,可适用于移动化环境要求并提供高性能计算需求.
  • 摘要:随着信息化时代的飞速发展,各行业应用所产生的数据呈爆炸性增长,如何快速有效地从大量数据分辨出有价值的信息变得越来越重要.朴素贝叶斯分类算法以其优越的分类性能在各个领域得到广泛应用,但是应对大数据其存在严重缺陷——无法处理连续型属性阈值和属性数据覆盖不全的情况.针对该问题,本文深入分析传统朴素贝叶斯分类算法,在高斯分布处理方案和Laplace-estimate改进朴素贝叶斯分类算法的基础上,提出新的属性加权权值函数和绝对占优后验概率假设,同时以MIC平台为基础,对算法进行并行处理、循环调整、访存优化等,形成基于MIC平台的高效朴素贝叶斯分类算法(MENBC).通过德国信用数据集验证,在900个分类测试样本中,本文改进算法模型比传统朴素贝叶斯分类算法代价减少240,在MIC平台上最高获得8.2倍加速比.
  • 摘要:GPU等协处理器已成为构建超算平台的重要选项,CPU-GPU协同方式深刻影响着异构平台的整体效率.如何在自主开发的应用程序中耦合CPU和GPU,目前仍缺乏共识.本文调研了3种CPU-GPU耦合模型:热点加速,全GPU加速,以及对等协同.目前,第一种模型受到普遍认可,第二种模型也在一些场景频繁使用,第三种还没有被充分讨论.本文基于光滑粒子流体动力学方法,针对其简化的Euler方程和完整的Navier-Stokes方程,实现了三种协同模型,详细探讨了其kernel优化策略、通信优化策略、以及代码重用策略.测试结果显示,三种模型下,Eluer方程获得了8倍,33倍,36倍的加速,Navier-Stokes方程获得了6倍,15倍,20倍的加速,全GPU加速均突破了热点加速的上限,对等协同比之全GPU加速又可以获得进一步提高.理论分析和实验结果表明:Euler方程SPH采用全GPU加速性价比最高,而Navier-Stokes方程SPH更适合对等协同.所发展应用代码在6个异构计算节点上对这两种情况进行了强可扩展性测试,分别获得了93.1%和91.4%的并行效率.
  • 摘要:异或操作在计算机领域中有着广泛而重要的应用,例如伪随机数生成、RAID阵列校验信息生成、密码学等等,因此优化按位异或计算的执行效率对于提升异或应用的性能具有重要作用.然而,当前最新的Linux内核中缺少对ARMv8体系结构的设计与优化,以至于无法充分发挥ARM64位体系结构的性能优势.基于此,本文基于国产飞腾FT1500-A处理器和麒麟操作系统,设计并实现了一种针对ARMv8体系结构的异或加速方法XOR-arm64.该方法充分利用ARMv8体系结构中128位SIMD寄存器和向量处理指令来最大化并行异或操作数的加载、计算和存储等操作.通过大量实验表明XOR-arm64方法可显著提升原有异或计算方法的34.7%,每秒中可完成5976.3MB内存数据的异或计算;同时可大幅提升RAID5写操作的校验计算性能,IOZONE测试显示RAID5写、复写和随机写速度分别平均提高22.6%、23.9%和10.9%.
  • 摘要:随着无线通信技术、空间定位技术和移动计算技术的快速发展,基于位置的查询成为数据库领域的一个重要研究问题.在本文中,研究了路网中移动对象的KNN查询.一系列的算法被提出用于解决移动对象的KNN查询问题.然而,这些算法或者关注于查询的快速响应问题或者专注于解决移动对象的快速更新问题.随着移动对象数量的不断增加,当查询和更新大量涌入时,吞吐量成为一个更重要的问题.在本文中针对移动对象更新数据流和查询数据流,提出了一个基于内存的高吞吐量移动对象KNN查询算法--DSRNKNN算法,用于处理路网中移动对象的KNN查询.DSRNKNN算法采用了基于快照的模式.在每个快照中,DSRNKNN算法通过重新构建索引的方式,避免了复杂的索引维护操作,充分发挥了硬件的性能;通过每次执行一组查询的方式,充分利用查询内和查询间的并行,增加了数据的局部性,提高了算法的效率.本文在基于实际路网生成的数据集上对算法进行了测试,实验验证DSRNKNN算法具有很好的性能表现.
  • 摘要:数据存储和查询技术是无线传感器网络的关键技术.本文研究并认真分析了应用于无线传感器网络中数据存储和查询的球形Double ruling算法,它主要提出了利用数据复制的球面投影曲线代替单一孤立的存储节点的思想,在此基础上找出其在数据存储和查询过程中存在的问题,并提出了改进算法.在改进的球形Double ruling算法中,进行数据存储时,数据采集节点将会有选择性地将采集数据存储到位于球形Double ruling算法复制曲线上的节点中,避免了将采集数据存储到复制曲线上的每一个节点上,进而减少了数据存储消耗量;在进行数据查询时,本文提出了利用Folyd求取最短路径算法来确定存储数据节点到检索节点的返回路径,通过缩减检索通信路径的跳数和构造以网络通信次数为权值的网络邻接矩阵来减少数据查询阶段的通信消耗和均衡整个网络的通信量.最后,通过仿真实验证明,改进的球形Double ruling算法优于原始球形Double ruling算法和GHT算法.
  • 客服微信

  • 服务号