您现在的位置:首页>中文会议>2016年全国高性能计算学术年会

会议信息

  • 会议名称:

    2016年全国高性能计算学术年会

  • 召开年: 2016
  • 召开地: 西安
  • 会议文集: 2016年全国高性能计算学术年会 论文集
  • 主办单位: 中国计算机学会
  • 出版时间: 2016-10-27
  • 排序:
  • 显示:
  • 每页:
全选(0
<1/2>
39条结果
  • 摘要:使用分布式系统处理"高通量"数据,需要考虑数据处理总量规模与网络建设成本关系。针对分布式系统的数据处理特征,对数据中心网络进行设计,而目前存在两种设计方法:面向特定应用定制专用网络,在通用网络拓扑基础上进行专项优化调整。大规模网络结构设计是构建数据中心和高性能计算集群的核心技术之一,底层网络设计者需要结合顶层应用通信流量特征,进行网络结构选型与优化.不当的应用通信模型会引起网络结构设计与实际需求的背离,进而导致系统通信和整体性能的下降.传统基于"黑盒"数据分析的流量建模方法存在业务建模粒度粗和应用数据规模扩展性差等缺陷.本研究引入模拟业务内部逻辑的"白盒"思想,对当前大数据应用的主流计算模式MapReduce进行精细流量建模.与真实应用流量的对比评测显示,该方法能够准确体现MapReduce计算业务所产生网络流量的特征.基于正确的流量模型,本文对四种主流数据中心网络进行了性能模拟分析.结果表明;相较负载随机均匀分布流量,同一种网络在负载MapReduce特性流量时性能将下降超过30%,因此特性流量能更加明显地展现网络拥塞与瓶颈问题.仿真实验所得到的有关网络性能瓶颈、拓扑可扩展性以及网络性价比的结论,为大规模数据中心网络选型和性能优化提供了新的依据.
  • 摘要:类Twitter的微博通常包括两个特征:交友和传播信息,人们可以利用Twitter的关注功能寻找新的好友,同时,也可以利用Retweet功能转发信息.因此,仅简单地利用Twitter的关注关系来度量用户的影响力是不可靠的,这样忽略了用户的传播能力;同时,仅依靠信息的被转发次数来计算信息影响力也是不可靠的,这样忽略的转发信息用户自身的影响力,由于影响力高的用户通常拥有大量的粉丝来阅读该用户转发的信息.本文同时考虑用户的关注关系与信息的传播关系,提出了基于异质网络的随机游走模型,来综合计算微博中的个体和信息影响力.事实上,如果用户经常发布高影响力的信息,则认为该用户是重要的,拥有高的影响力;同时,如果某信息被多个高影响力的用户发布或者转发,则认为该信息具有高的影响力.实验采用真实的Twitter数据集,包含26万个用户和1000万条博文,实验结果表明本文提出的方法在个体影响力和信息影响力计算两个方面,比传统的关注网络PageRank算法和转发次数retwe etNum都具有较好的性能.
  • 摘要:地震勘探数据处理是石油开采的重要依据,其中的叠前逆时偏移方法由于其高精度和高模型适应性等特点受到广泛关注,如果再使用有限单元方法离散更可实现对起伏地表、复杂构造以及间断岩层分布的精确成像.但相对于传统射线方法,叠前逆时偏移方法的计算量,特别是有限单元方法离散的庞大计算量限制了该方法在工程实际问题的应用.本文提出了一种新型并行全隐式有限元叠前逆时偏移算法,并利用多层线性方程组平衡(区域分解)算法实现问题的高扩展快速求解,与传统方法相比精度高,具有处理复杂地质断层结构及各向异性地质能力,通过国际标准的Marmousi算例校验,实际地震资料处理中能有效压缩计算时间满足工业需求.
  • 摘要:海冰模式是地球模式的重要组成部分,其使用不同的网格和时间梯度来模拟海冰区域的变化.海冰模式具有计算密集的特性,随着海冰模式计算精度的提升,传统的硬件已难以满足其计算需求.为解决这一问题,本文基于神威众核处理器,设计了一种针对海冰模式算法移植和并行化的方法.为充分发掘神威众核处理器的并行特性,该方法分别对海冰模式数据分割方式,数据传输过程以及计算方式进行了改进和优化.本文利用该方法对海冰模式的两个算法进行了移植和并行化,并使用CICE测试数据集和COREv2数据集对该方法的性能进行测试.实验表明,并行优化后的两个算法相较其串行实现分别获得了21.4和11倍的性能提升,且与传统并行化方法相比,该方法最高可获得40%的性能提升.
  • 摘要:SMDFS(Small files Distributed File System)可以高效地管理百亿级数量文件.然而针对照片、音乐等海量数据,往往需要从多个维度快速浏览文件,基于目录结构管理海量文件的传统文件组织方式很难满足这一要求.本文在SMDFS文件系统基础之上,为文件引入特征属性,并提出基于特征的海量小文件倒排索引技术和分布索引技术,可根据多个特征快速浏览文件.论文实验数据表明,支持特征的SMDFS为海量小文件提供高效管理和多维度快速浏览能力,海量小文件的访问性能并没有明显下降.
  • 摘要:随着高性能计算的发展,计算能力得到大幅度的提升,然而受限于投资和复杂度,IO性能则相对发展缓慢.基于此,IO性能已经成为众多HPC应用程序的性能瓶颈,提升应用程序的IO性能就显得格外重要.分析和理解高性能计算机上高性能计算程序IO行为是提升其性能的关键.因此,本文在神威太湖之光系统上设计和实现了一个面向HPC应用程序的IO trace采集和分析工具.该工具通过采集和高效存储前端计算节点上的IO日志,统计各个计算节点上的读写行为数据,用IOPS(IO operations per second)、IO带宽、数据大小分布和各个节点的IO活跃情况等指标来量化反映应用程序的IO特征和性能问题,并进一步分析应用程序以及系统可能存在的瓶颈.本文在神威太湖之光超级计算机上,以NPB-IO、MPI-IO测试程序和真实应用程序验证了IO trace采集和分析工具的有效性.
  • 摘要:并行程序性能预测技术在高性能计算领域发挥着重要的作用,例如,并行系统设计、并行程序优化和高性能机器选购等等.而基于大规模并行系统的准确和高效的并行程序性能预测是一个具有挑战性的问题.为了解决这个问题,本文基于LLVM编译器设计了一个性能预测框架,基于该框架能够在并行系统的少量节点上预测并行程序的执行性能,而不需要完整的执行该并行程序.该框架是将程序的串行计算部分和通讯部分分别进行建模,然后将这两部分的预测结果合并得到并行程序最终的预测结果.对于串行计算部分,本文将静态分支概率和循环次数相结合,提出一种轻量级的插桩方法来获取程序中各类指令的数量,然后构建测试程序来获取相应类型的指令的平均执行时间.为了使预测能够在单个计算节点的进行,利用删减技术将并行程序转化成相应的串行程序.对于通信部分,利用LogGP模型对点对点通信进行建模,然后利用人工神经网络对复杂的集合通信进行建模.基于NPB基准测试程序和并行应用CGPOP在实际的大规模并行系统中进行实验,验证方法的有效性.实验结果显示,该框架能够比较准确的预测并行程序的执行性能,所有实验程序的平均误差为10.86%.
    • 作者:WANG Pan,
    • 会议名称:2016年全国高性能计算学术年会
    • 2016年
    摘要:Sort-last并行绘制方法广泛应用于大规模科学数据的并行可视化过程,而并行图像合成方法直接决定了Sort-last方法的总体绘制性能.本文针对目前Direct Send图像合成方法中存在的不足,提出一种通信开销最小的Direct Send并行图像合成方法,该方法首先使用GPU多线程方式统计各个绘制节点图像的有效像素前缀和,再利用动态规划方法计算有效像素前缀和列表的最佳分割位置,使并行图像合成的通信开销最小.该方法改变了传统Direct Send方法中静态均匀分配图像子块的合成模式,实验表明,本文所提出的Direct Send方法在并行图像合成性能方面明显优于现有方法,为后续以Direct Send方法为基石构建更高效的大规模并行图像合成方法奠定了基础.
  • 摘要:HOG特征是一种简单且高效的常用来进行物体检测的特征描述子,广泛应用于行人检测等领域,然而在处理海量图片时却面临着严峻的性能挑战.解决方法之一就是通过使用神威太湖之光超级计算机的处理器节点对海量图像背景下的行人检测算法进行加速.申威SW26010处理器是完全由中国自主研发的"中国芯",具有核心众多、计算性能高和能耗低的优势.本文主要采用了两种并行方案:一种是一个处理器同时处理4张图片,另一种是同时处理256张图片.两种并行设计方案均有良好的并行效果,通过大量的串行和并行处理的实验测试,并进行数据的对比分析,结果表明:对高分辨率多幅图像的并行处理可采用第一种方案,加速比可达83倍;对低分辨率图像可采用第二种方案,加速比最高可达到95.在多处理器节点上进行的实验结果表明,本文并行设计方案在神威太湖之光的多处理器节点上具有很好的扩展性能.
  • 摘要:随着信息数据的大量增加,传统单处理器或多处理器结构的计算设备已无法满足实时性数据处理要求.异构并行计算技术因其高效的计算效率,和并行的实时性数据处理能力,正得到广泛关注和应用.本文利用GPU在图形图像处理方面并行性的优势,提出了基于OpenCL的JPEG压缩算法并行化设计方法.将JPEG算法功能分解为多个内核程序,内核之间通过事件信息传递进行顺序控制,并在GPU+CPU的异构平台上完成了并行算法的仿真验证.实验结果表明,与CPU串行处理方式相比,本文提出的并行化算法在保持相同图像质量情况下有效提高了算法的执行效率,大幅降低了算法的执行时间,并且随着图形尺寸的增加,算法效率获得明显的提升.
  • 摘要:高能物理是典型的数据密集型计算环境,数据处理包括模拟计算、重建计算以及物理分析.其中大文件计算占据较大比重,并且高能物理文件访问模式以大数据块跳读为主,因此大文件的高速访问成为整个系统性能的重要影响因素.本文首先剖析传统高能物理计算环境典型架构及其文件访问模式的特点,介绍混合存储模式在高能物理计算环境中的优势,总结其数据访问方式特点,对其各种读写方式进行数据测试,提出针对该环境下的混合存储系统的部署设计和优化,使该环境下的数据读写性能明显提高,同时将成本因素考虑到系统设计中,实现一个低成本高性能的存储系统.测试表明,混合存储系统在高能物理等大数据存储系统中,具有高效的I/O性能.本文全面分析了影响其性能的各种因素,实现混合存储的最优化配置,实现低成本高性能的存储系统,并对该系统的未来发展趋势进行了分析和展望,对混合存储技术进行了详细的原理分析和数据测试,并对其性能影响因素进行了细致化分析,总结出混合存储的优化配置公式,对高能物理以外的其它大数据系统也有着借鉴意义。随着存储设备制造工艺的不断改进,纯固态盘设备逐渐普及,未来的存储系统架构、存储技术也会不断革新进步,但是目前分层混合存储技术仍有着重要作用。
  • 摘要:天河2号等亿亿次计算机上的大规模异构协同计算对负载平衡算法提出了3方面要求:低算法复杂度、适应多级嵌套的数据传输系统和支撑异构协同计算.通过组合三级嵌套负载平衡算法框架、贪婪剖分算法和内外子区域剖分算法,设计了一种能够同时满足这3方面要求的负载平衡算法.模型测试表明,算法可以达到90%以上的负载平衡效率.天河-2上32个节点的测试表明,算法能够保证通信开销较小.5个典型应用在天河-2上最大93.6万核的测试表明,算法能够支撑应用高效扩展,并行效率最高可达80%.
  • 摘要:众核处理器设计在芯片面积上受到了巨大挑战,如何将有限的芯片面积更多地投入到运算能力中,是众核处理器体系结构研究中的热点.文章聚焦众核处理器的指令缓存结构设计,研究通过在多个核心之间共享一级指令缓存,以获取指令系统及处理器流水线性能的提升.给出了共享指令缓存的结构设计,对该结构进行了节拍级精确的性能模拟,并通过RTL级代码的综合得到了面积开销和时序指标.测试结果表明,共享指令缓存可以降低11%到27%的缓存脱靶率,提升4%到7%的流水线性能.
  • 摘要:大气模式是当前气候系统模式中最重要的组件之一.随着科学家们对气候问题研究的深入,对大气模式分辨率的要求越来越高.欧拉方程作为大气模式动力框架的常用控制方程,其求解速度对于高分辨率大气模拟至关重要.由于欧拉方程全隐式求解方法的时间积分步长与分辨率是独立的,使得其在高分辨率大气模式的研制中具有重要的研究价值.同时,异构众核成为未来高性能计算机的主流发展趋势之一,研究大气模式在异构众核平台上的优化也受到了越来越多的关注.本文研究了一个全新的大气欧拉方程全隐式求解算法中的雅克比矩阵生成程序在新发布的国产异构众核超级计算机神威·太湖之光上的优化.通过从核并行、双缓冲、向量化和混合精度等优化手段,在单核组计算网格规模为524288时,与优化的主核程序相比获得了110.33倍的加速.单核组求解问题规模从524288网格点减少到4096网格点,程序依然可以有效利用所有的从核计算资源,保持70%的加速效果。
    • 作者:YANG Shangqin,
    • 会议名称:2016年全国高性能计算学术年会
    • 2016年
    摘要:目前使用有限差分对波动方程进行数值模拟是比较流行的方法,在理论研究和工作生产中已经广泛被使用.本文给出了一种组合使用多种并行优化设计方法对算法核心进行深入优化的方法,它充分挖掘算法的并行性及程序各阶段运行的智能监控,通过采用减少同步、边界重划、线程和处理器绑定、零复制,空间局部性、时间局部性及Pthreads多线程编程模型等一系列并行优化设计方法,实现二维波动方程正演模拟的优化,从而大幅提升程序的性能,使正演数值模拟达到实时仿真的效果.通过对有限差分数值模拟的并行调优前后试验数据比较,验证了该一系列深入并行优化方法能够较好地提高有限差分二维正演模拟的计算效率.
  • 摘要:在图及其它离散的结构上进行大规模的计算在包括计算生物学、网页搜索及知识发现等众多领域发挥着日益重要的作用.但是,与相对成熟的数值科学计算相比,以图计算为代表的高性能组合计算是一个新兴领域,如何使大规模图计算获得高性能是一个待解决的问题.高性能数值计算的许多方法,特别是针对稀疏矩阵计算的并行算法及数据结构可以为并行图计算提供支撑.本文在Combinatorial BLAS上实现了对同辈压力(Peer Pressure)图聚类的并行优化,将图计算转化为对稀疏矩阵的计算,并基于MPI和MPI+OpenMP两种编程模型分别针对该算法最费时的部分提出相应的并行算法.实验结果表明,在处理规模达到43000亿的由稀疏矩阵表示的超大规模图时,基于线性代数表示的同辈压力图聚类算法在曙光超级计算机上取得了较高的性能表现,良好的可扩展性.其MPI实现在1024个核上获得了76.8%的并行效率;其MPI+OpenMP实现在2048个核上取得了46.4%的并行效率.
  • 摘要:高能物理计算是典型的高性能计算的应用,运行时需要大量的CPU资源.如果系统的CPU资源利用率不高,会使得计算效率大大下降.传统的高能物理计算环境资源管理是静态的,很难同时满足突发、批处理、CPU密集型、数据密集型等不同类型的作业对于不同的物理资源的需求.本文基于Openstack构建的虚拟计算集群系统,实现以CPU核为粒度进行调度作业,根据当前的作业和虚拟资源情况,动态调度资源,大大提高了资源的利用率.文章首先介绍本系统相关的研究工作,包括KVM虚拟机的测试优化、高能物理作业在虚拟机上的性能测试以及高能物理公共服务云IHEPCloud.这些工作进一步表明了高能物理实验的数据分析在虚拟机上的性能是完全可以被接受的.接着,文章详细介绍了虚拟计算集群系统的设计与实现.最后给出虚拟机计算集群在高能物理计算中的实际应用情况,证明了虚拟计算集群系统能很好的满足高能物理的计算需求。
  • 摘要:针对经典C4.5决策树算法存在过度拟合和伸缩性差的问题,提出一种基于Bagging的决策树改进算法,并基于MapReduce模型对改进算法进行了并行化.首先,基于Bagging技术对C4.5算法进行了改进,通过有放回采样得到多个与初始训练集大小相等的新训练集,并在每个训练集上进行训练,得到多个分类器,再根据多数投票规则集成训练结果得到最终的分类器;然后,基于MapReduce模型对改进算法进行了并行化,能够并行化处理训练集、并行选择最佳分割属性和最佳分割点,以及并行生成子节点,实现了基于MapReduce Job工作流的并行决策树改进算法,提高了对大数据集的分析能力.实验结果表明,并行Bagging决策树改进算法具有较高的准确度与敏感度,以及较好的伸缩性和加速比.
  • 摘要:高性能计算环境聚合了多个分布在不同地域不同组织机构的高性能计算资源,面向用户提供统一的访问入口和使用方式,由系统中间件根据用户作业请求匹配合适的高性能计算资源.随着环境应用编程接口的开放以及作业请求数量的大幅增加,面对高并发作业提交请求时,目前采用的即时调度模型会由于网络等原因导致一定数量的请求处理失败,同时缺乏灵活性.在大用户量高并发请求下,高性能计算环境中目前采取的即时作业调度会由于网络连接数上限等原因导致一定数量的请求处理失败,同时作业调度策略缺乏一定的灵活性。本文针对此问题提出了一种优化的作业调度模型,并基于SCE中间件实现了系统原型。优化作业调度模型引入了环境作业队列,细化了作业在系统层的状态,并支持作业调度策略参数可配置.经测试,在单核心服务每分钟处理近200个作业提交请求的工作负载下,无因系统和网络原因引起的作业提交出错现象;在共计1000个作业中,近500个作业提交命令请求在0.3秒以内完成,800余个作业提交命令请求的在0.5秒以内完成.
  • 摘要:神威"太湖之光"是最新一期Top500榜单上排名第一的超级计算机,实测峰值性能约93PFlops.该系统提供了基于指导语句的并行编程工具神威OpenACC,兼容OpenACC2.0编程标准,并添加了部分定制功能,面向应用在"太湖之光"上的并行移植.GTC-P是一个具有重要物理意义的实际科学应用,基于高性能计算领域中广泛使用的Particle-In-Cell算法.本文旨在通过在"太湖之光"上移植GTC-P评估神威OpenACC对于应用的实际移植效果,然后对比神威OpenACC与OpenACC2.0标准在使用过程中的差异.但鉴于目前神威OpenACC编译器尚无法解决GTC-P仅利用指导语句移植后的性能瓶颈,本文提出了3种基于中间代码二次开发的优化方法:1)消除原子操作;2)避免低效的访存操作;3)手动添加SIMD intrinsic.最终,实验结果表明,在64个从核上相比1个主核,优化后的"charge"和"push"函数分别实现了1.6倍和8.6倍的加速比,同时GTC-P代码整体取得了2.5倍的加速比.本文的发现证明了基于中间代码的手动优化对PIC算法在"太湖之光"上的性能提升非常重要,更为神威OpenACC的进一步优化升级提供了实际的参考范例.

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号