首页>中文会议>工业技术>自动化技术与计算机技术>2016年全国高性能计算学术年会

2016年全国高性能计算学术年会

召开年：2016
召开地：西安
出版时间： 2016-10-27

主办单位：中国计算机学会

会议文集：2016年全国高性能计算学术年会论文集

会议论文

热门论文

全部论文

最新会议

更多>>

全选（0）

1.基于事件驱动的MapReduce类流量产生方法与网络评测
- Shao En;邵恩;Guo Jialiang;郭嘉梁;Wang Zhan;王展;Cao Zheng;曹政;Sun Ninghui
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：使用分布式系统处理"高通量"数据，需要考虑数据处理总量规模与网络建设成本关系。针对分布式系统的数据处理特征，对数据中心网络进行设计，而目前存在两种设计方法:面向特定应用定制专用网络，在通用网络拓扑基础上进行专项优化调整。大规模网络结构设计是构建数据中心和高性能计算集群的核心技术之一,底层网络设计者需要结合顶层应用通信流量特征,进行网络结构选型与优化.不当的应用通信模型会引起网络结构设计与实际需求的背离,进而导致系统通信和整体性能的下降.传统基于"黑盒"数据分析的流量建模方法存在业务建模粒度粗和应用数据规模扩展性差等缺陷.本研究引入模拟业务内部逻辑的"白盒"思想,对当前大数据应用的主流计算模式MapReduce进行精细流量建模.与真实应用流量的对比评测显示,该方法能够准确体现MapReduce计算业务所产生网络流量的特征.基于正确的流量模型,本文对四种主流数据中心网络进行了性能模拟分析.结果表明;相较负载随机均匀分布流量,同一种网络在负载MapReduce特性流量时性能将下降超过30％,因此特性流量能更加明显地展现网络拥塞与瓶颈问题.仿真实验所得到的有关网络性能瓶颈、拓扑可扩展性以及网络性价比的结论,为大规模数据中心网络选型和性能优化提供了新的依据.
2.基于异质网络随机游走模型的个体和信息影响力计算模型
- Xie Xiao-Liang;谢小良;Chen Xiao-hong
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：类Twitter的微博通常包括两个特征:交友和传播信息,人们可以利用Twitter的关注功能寻找新的好友,同时,也可以利用Retweet功能转发信息.因此,仅简单地利用Twitter的关注关系来度量用户的影响力是不可靠的,这样忽略了用户的传播能力;同时,仅依靠信息的被转发次数来计算信息影响力也是不可靠的,这样忽略的转发信息用户自身的影响力,由于影响力高的用户通常拥有大量的粉丝来阅读该用户转发的信息.本文同时考虑用户的关注关系与信息的传播关系,提出了基于异质网络的随机游走模型,来综合计算微博中的个体和信息影响力.事实上,如果用户经常发布高影响力的信息,则认为该用户是重要的,拥有高的影响力;同时,如果某信息被多个高影响力的用户发布或者转发,则认为该信息具有高的影响力.实验采用真实的Twitter数据集,包含26万个用户和1000万条博文,实验结果表明本文提出的方法在个体影响力和信息影响力计算两个方面,比传统的关注网络PageRank算法和转发次数retwe etNum都具有较好的性能.
3.一种并行地震勘探叠前逆时偏移成像全隐式有限元算法
- Xu Ran;徐然;Liu Bin
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：地震勘探数据处理是石油开采的重要依据,其中的叠前逆时偏移方法由于其高精度和高模型适应性等特点受到广泛关注,如果再使用有限单元方法离散更可实现对起伏地表、复杂构造以及间断岩层分布的精确成像.但相对于传统射线方法,叠前逆时偏移方法的计算量,特别是有限单元方法离散的庞大计算量限制了该方法在工程实际问题的应用.本文提出了一种新型并行全隐式有限元叠前逆时偏移算法,并利用多层线性方程组平衡(区域分解)算法实现问题的高扩展快速求解,与传统方法相比精度高,具有处理复杂地质断层结构及各向异性地质能力,通过国际标准的Marmousi算例校验,实际地震资料处理中能有效压缩计算时间满足工业需求.
4.基于神威众核处理器的海冰模式并行加速方法
- Li Binyang;李镔洋;Li Bo;李波;Qian Depei
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：海冰模式是地球模式的重要组成部分,其使用不同的网格和时间梯度来模拟海冰区域的变化.海冰模式具有计算密集的特性,随着海冰模式计算精度的提升,传统的硬件已难以满足其计算需求.为解决这一问题,本文基于神威众核处理器,设计了一种针对海冰模式算法移植和并行化的方法.为充分发掘神威众核处理器的并行特性,该方法分别对海冰模式数据分割方式,数据传输过程以及计算方式进行了改进和优化.本文利用该方法对海冰模式的两个算法进行了移植和并行化,并使用CICE测试数据集和COREv2数据集对该方法的性能进行测试.实验表明,并行优化后的两个算法相较其串行实现分别获得了21.4和11倍的性能提升,且与传统并行化方法相比,该方法最高可获得40％的性能提升.
5.海量文件系统中基于特征实现文件多维度浏览
- He Yang;贺扬;He Lianyue
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：SMDFS(Small files Distributed File System)可以高效地管理百亿级数量文件.然而针对照片、音乐等海量数据,往往需要从多个维度快速浏览文件,基于目录结构管理海量文件的传统文件组织方式很难满足这一要求.本文在SMDFS文件系统基础之上,为文件引入特征属性,并提出基于特征的海量小文件倒排索引技术和分布索引技术,可根据多个特征快速浏览文件.论文实验数据表明,支持特征的SMDFS为海量小文件提供高效管理和多维度快速浏览能力,海量小文件的访问性能并没有明显下降.
6.神威太湖之光系统上面向HPC应用程序的IO trace采集与分析工具
- Yang Yibo;杨一博;Wang Xiyang;王曦阳;Yang Bin;杨斌;Liu Weiguo;刘卫国;Xue Wei
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：随着高性能计算的发展,计算能力得到大幅度的提升,然而受限于投资和复杂度,IO性能则相对发展缓慢.基于此,IO性能已经成为众多HPC应用程序的性能瓶颈,提升应用程序的IO性能就显得格外重要.分析和理解高性能计算机上高性能计算程序IO行为是提升其性能的关键.因此,本文在神威太湖之光系统上设计和实现了一个面向HPC应用程序的IO trace采集和分析工具.该工具通过采集和高效存储前端计算节点上的IO日志,统计各个计算节点上的读写行为数据,用IOPS(IO operations per second)、IO带宽、数据大小分布和各个节点的IO活跃情况等指标来量化反映应用程序的IO特征和性能问题,并进一步分析应用程序以及系统可能存在的瓶颈.本文在神威太湖之光超级计算机上,以NPB-IO、MPI-IO测试程序和真实应用程序验证了IO trace采集和分析工具的有效性.
7.一种基于LLVM的并行程序性能预测框架
- Hao Meng;郝萌;Zhang Weizhe;张伟哲;Lu Gangzhao;鲁刚钊;Han Shuo
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：并行程序性能预测技术在高性能计算领域发挥着重要的作用,例如,并行系统设计、并行程序优化和高性能机器选购等等.而基于大规模并行系统的准确和高效的并行程序性能预测是一个具有挑战性的问题.为了解决这个问题,本文基于LLVM编译器设计了一个性能预测框架,基于该框架能够在并行系统的少量节点上预测并行程序的执行性能,而不需要完整的执行该并行程序.该框架是将程序的串行计算部分和通讯部分分别进行建模,然后将这两部分的预测结果合并得到并行程序最终的预测结果.对于串行计算部分,本文将静态分支概率和循环次数相结合,提出一种轻量级的插桩方法来获取程序中各类指令的数量,然后构建测试程序来获取相应类型的指令的平均执行时间.为了使预测能够在单个计算节点的进行,利用删减技术将并行程序转化成相应的串行程序.对于通信部分,利用LogGP模型对点对点通信进行建模,然后利用人工神经网络对复杂的集合通信进行建模.基于NPB基准测试程序和并行应用CGPOP在实际的大规模并行系统中进行实验,验证方法的有效性.实验结果显示,该框架能够比较准确的预测并行程序的执行性能,所有实验程序的平均误差为10.86％.
8.最小通信开销的Direct Send并行图像合成方法
- WANG Pan
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：Sort-last并行绘制方法广泛应用于大规模科学数据的并行可视化过程,而并行图像合成方法直接决定了Sort-last方法的总体绘制性能.本文针对目前Direct Send图像合成方法中存在的不足,提出一种通信开销最小的Direct Send并行图像合成方法,该方法首先使用GPU多线程方式统计各个绘制节点图像的有效像素前缀和,再利用动态规划方法计算有效像素前缀和列表的最佳分割位置,使并行图像合成的通信开销最小.该方法改变了传统Direct Send方法中静态均匀分配图像子块的合成模式,实验表明,本文所提出的Direct Send方法在并行图像合成性能方面明显优于现有方法,为后续以Direct Send方法为基石构建更高效的大规模并行图像合成方法奠定了基础.
9.基于申威众核处理器的HOG特征提取算法并行加速
- Zhao Meiting;赵美婷;Liu Yi;刘轶;Liu Rui;刘锐;Song Kaida;宋凯达;Qian Depei
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：HOG特征是一种简单且高效的常用来进行物体检测的特征描述子,广泛应用于行人检测等领域,然而在处理海量图片时却面临着严峻的性能挑战.解决方法之一就是通过使用神威太湖之光超级计算机的处理器节点对海量图像背景下的行人检测算法进行加速.申威SW26010处理器是完全由中国自主研发的"中国芯",具有核心众多、计算性能高和能耗低的优势.本文主要采用了两种并行方案:一种是一个处理器同时处理4张图片,另一种是同时处理256张图片.两种并行设计方案均有良好的并行效果,通过大量的串行和并行处理的实验测试,并进行数据的对比分析,结果表明:对高分辨率多幅图像的并行处理可采用第一种方案,加速比可达83倍;对低分辨率图像可采用第二种方案,加速比最高可达到95.在多处理器节点上进行的实验结果表明,本文并行设计方案在神威太湖之光的多处理器节点上具有很好的扩展性能.
10.基于OpenCL的JPEG压缩算法并行化设计与实现
- Zhang Minhua;张敏华;Zhang Jianxian;张剑贤;Qiu Xuehong;裘雪红;Zhou Duan
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：随着信息数据的大量增加,传统单处理器或多处理器结构的计算设备已无法满足实时性数据处理要求.异构并行计算技术因其高效的计算效率,和并行的实时性数据处理能力,正得到广泛关注和应用.本文利用GPU在图形图像处理方面并行性的优势,提出了基于OpenCL的JPEG压缩算法并行化设计方法.将JPEG算法功能分解为多个内核程序,内核之间通过事件信息传递进行顺序控制,并在GPU+CPU的异构平台上完成了并行算法的仿真验证.实验结果表明,与CPU串行处理方式相比,本文提出的并行化算法在保持相同图像质量情况下有效提高了算法的执行效率,大幅降低了算法的执行时间,并且随着图形尺寸的增加,算法效率获得明显的提升.
11.高能物理环境中混合存储系统的设计与优化
- XU Qi;徐琪;CHENG Yaodong;程耀东;CHEN Gang
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：高能物理是典型的数据密集型计算环境,数据处理包括模拟计算、重建计算以及物理分析.其中大文件计算占据较大比重,并且高能物理文件访问模式以大数据块跳读为主,因此大文件的高速访问成为整个系统性能的重要影响因素.本文首先剖析传统高能物理计算环境典型架构及其文件访问模式的特点,介绍混合存储模式在高能物理计算环境中的优势,总结其数据访问方式特点,对其各种读写方式进行数据测试,提出针对该环境下的混合存储系统的部署设计和优化,使该环境下的数据读写性能明显提高,同时将成本因素考虑到系统设计中,实现一个低成本高性能的存储系统.测试表明,混合存储系统在高能物理等大数据存储系统中,具有高效的I/O性能.本文全面分析了影响其性能的各种因素,实现混合存储的最优化配置,实现低成本高性能的存储系统,并对该系统的未来发展趋势进行了分析和展望，对混合存储技术进行了详细的原理分析和数据测试，并对其性能影响因素进行了细致化分析，总结出混合存储的优化配置公式，对高能物理以外的其它大数据系统也有着借鉴意义。随着存储设备制造工艺的不断改进，纯固态盘设备逐渐普及，未来的存储系统架构、存储技术也会不断革新进步，但是目前分层混合存储技术仍有着重要作用。
12.针对天河2号的一种三级嵌套剖分负载平衡算法
- Liu Xu;刘旭;Yang Zhang;杨章;Yang Yang
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：天河2号等亿亿次计算机上的大规模异构协同计算对负载平衡算法提出了3方面要求:低算法复杂度、适应多级嵌套的数据传输系统和支撑异构协同计算.通过组合三级嵌套负载平衡算法框架、贪婪剖分算法和内外子区域剖分算法,设计了一种能够同时满足这3方面要求的负载平衡算法.模型测试表明,算法可以达到90％以上的负载平衡效率.天河-2上32个节点的测试表明,算法能够保证通信开销较小.5个典型应用在天河-2上最大93.6万核的测试表明,算法能够支撑应用高效扩展,并行效率最高可达80％.
13.众核处理器的共享一级指令缓存研究
- Zhang Kun;张昆;Liu Xiao;刘骁;Zheng Fang;郑方;Xie Xianghui
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：众核处理器设计在芯片面积上受到了巨大挑战,如何将有限的芯片面积更多地投入到运算能力中,是众核处理器体系结构研究中的热点.文章聚焦众核处理器的指令缓存结构设计,研究通过在多个核心之间共享一级指令缓存,以获取指令系统及处理器流水线性能的提升.给出了共享指令缓存的结构设计,对该结构进行了节拍级精确的性能模拟,并通过RTL级代码的综合得到了面积开销和时序指标.测试结果表明,共享指令缓存可以降低11％到27％的缓存脱靶率,提升4％到7％的流水线性能.
14.申威众核上全隐式大气动力框架Jacobian矩阵生成的优化
- Xu Ping;许平;Wang Xinliang;王欣亮;Xue Wei;薛巍;Yang Chao
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：大气模式是当前气候系统模式中最重要的组件之一.随着科学家们对气候问题研究的深入,对大气模式分辨率的要求越来越高.欧拉方程作为大气模式动力框架的常用控制方程,其求解速度对于高分辨率大气模拟至关重要.由于欧拉方程全隐式求解方法的时间积分步长与分辨率是独立的,使得其在高分辨率大气模式的研制中具有重要的研究价值.同时,异构众核成为未来高性能计算机的主流发展趋势之一,研究大气模式在异构众核平台上的优化也受到了越来越多的关注.本文研究了一个全新的大气欧拉方程全隐式求解算法中的雅克比矩阵生成程序在新发布的国产异构众核超级计算机神威·太湖之光上的优化.通过从核并行、双缓冲、向量化和混合精度等优化手段,在单核组计算网格规模为524288时,与优化的主核程序相比获得了110.33倍的加速.单核组求解问题规模从524288网格点减少到4096网格点,程序依然可以有效利用所有的从核计算资源,保持70％的加速效果。
15.地震正演数值模拟仿真计算的并行优化设计方法
- YANG Shangqin
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：目前使用有限差分对波动方程进行数值模拟是比较流行的方法,在理论研究和工作生产中已经广泛被使用.本文给出了一种组合使用多种并行优化设计方法对算法核心进行深入优化的方法,它充分挖掘算法的并行性及程序各阶段运行的智能监控,通过采用减少同步、边界重划、线程和处理器绑定、零复制,空间局部性、时间局部性及Pthreads多线程编程模型等一系列并行优化设计方法,实现二维波动方程正演模拟的优化,从而大幅提升程序的性能,使正演数值模拟达到实时仿真的效果.通过对有限差分数值模拟的并行调优前后试验数据比较,验证了该一系列深入并行优化方法能够较好地提高有限差分二维正演模拟的计算效率.
16.基于线性代数的同辈压力图聚类并行算法优化
- Zou Peigang;邹佩钢;Chen Jun
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：在图及其它离散的结构上进行大规模的计算在包括计算生物学、网页搜索及知识发现等众多领域发挥着日益重要的作用.但是,与相对成熟的数值科学计算相比,以图计算为代表的高性能组合计算是一个新兴领域,如何使大规模图计算获得高性能是一个待解决的问题.高性能数值计算的许多方法,特别是针对稀疏矩阵计算的并行算法及数据结构可以为并行图计算提供支撑.本文在Combinatorial BLAS上实现了对同辈压力(Peer Pressure)图聚类的并行优化,将图计算转化为对稀疏矩阵的计算,并基于MPI和MPI+OpenMP两种编程模型分别针对该算法最费时的部分提出相应的并行算法.实验结果表明,在处理规模达到43000亿的由稀疏矩阵表示的超大规模图时,基于线性代数表示的同辈压力图聚类算法在曙光超级计算机上取得了较高的性能表现,良好的可扩展性.其MPI实现在1024个核上获得了76.8％的并行效率;其MPI+OpenMP实现在2048个核上取得了46.4％的并行效率.
17.基于Openstack的高能物理虚拟计算集群系统及应用
- HUANG Qiulan;黄秋兰;LI HaiBo;李海波;Shi Jingyan;石京燕;Sun Zhenyu;孙震宇;Wu Wenjing;伍文静;Cheng Yaodong;程耀东;Cheng Zhenjing
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：高能物理计算是典型的高性能计算的应用,运行时需要大量的CPU资源.如果系统的CPU资源利用率不高,会使得计算效率大大下降.传统的高能物理计算环境资源管理是静态的,很难同时满足突发、批处理、CPU密集型、数据密集型等不同类型的作业对于不同的物理资源的需求.本文基于Openstack构建的虚拟计算集群系统,实现以CPU核为粒度进行调度作业,根据当前的作业和虚拟资源情况,动态调度资源,大大提高了资源的利用率.文章首先介绍本系统相关的研究工作,包括KVM虚拟机的测试优化、高能物理作业在虚拟机上的性能测试以及高能物理公共服务云IHEPCloud.这些工作进一步表明了高能物理实验的数据分析在虚拟机上的性能是完全可以被接受的.接着,文章详细介绍了虚拟计算集群系统的设计与实现.最后给出虚拟机计算集群在高能物理计算中的实际应用情况,证明了虚拟计算集群系统能很好的满足高能物理的计算需求。
18.基于MapReduce的Bagging决策树改进算法
- ZHANG Yuanming;张元鸣;CHEN Miao;陈苗;LU Jiawei;陆佳炜;XU Jun;徐俊;XIAO Gang
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：针对经典C4.5决策树算法存在过度拟合和伸缩性差的问题,提出一种基于Bagging的决策树改进算法,并基于MapReduce模型对改进算法进行了并行化.首先,基于Bagging技术对C4.5算法进行了改进,通过有放回采样得到多个与初始训练集大小相等的新训练集,并在每个训练集上进行训练,得到多个分类器,再根据多数投票规则集成训练结果得到最终的分类器;然后,基于MapReduce模型对改进算法进行了并行化,能够并行化处理训练集、并行选择最佳分割属性和最佳分割点,以及并行生成子节点,实现了基于MapReduce Job工作流的并行决策树改进算法,提高了对大数据集的分析能力.实验结果表明,并行Bagging决策树改进算法具有较高的准确度与敏感度,以及较好的伸缩性和加速比.
19.面向高性能计算环境的作业优化调度模型设计与实现
- Xiaoning Wang;王小宁;Haili Xiao;肖海力;Rongqiang Cao
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：高性能计算环境聚合了多个分布在不同地域不同组织机构的高性能计算资源,面向用户提供统一的访问入口和使用方式,由系统中间件根据用户作业请求匹配合适的高性能计算资源.随着环境应用编程接口的开放以及作业请求数量的大幅增加,面对高并发作业提交请求时,目前采用的即时调度模型会由于网络等原因导致一定数量的请求处理失败,同时缺乏灵活性.在大用户量高并发请求下，高性能计算环境中目前采取的即时作业调度会由于网络连接数上限等原因导致一定数量的请求处理失败，同时作业调度策略缺乏一定的灵活性。本文针对此问题提出了一种优化的作业调度模型，并基于SCE中间件实现了系统原型。优化作业调度模型引入了环境作业队列，细化了作业在系统层的状态，并支持作业调度策略参数可配置.经测试,在单核心服务每分钟处理近200个作业提交请求的工作负载下,无因系统和网络原因引起的作业提交出错现象;在共计1000个作业中,近500个作业提交命令请求在0.3秒以内完成,800余个作业提交命令请求的在0.5秒以内完成.
20.太湖之光上基于神威OpenACC的GTC-P移植与优化研究
- Yichao Wang;王一超;林新华;James Lin;Linjin Cai;蔡林金;William Tang;William Tang;Stephane Ethier;Stephane Ethier;Bei Wang;Bei Wang;Simon See;Simon See;Satoshi Matsuoka
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：神威"太湖之光"是最新一期Top500榜单上排名第一的超级计算机,实测峰值性能约93PFlops.该系统提供了基于指导语句的并行编程工具神威OpenACC,兼容OpenACC2.0编程标准,并添加了部分定制功能,面向应用在"太湖之光"上的并行移植.GTC-P是一个具有重要物理意义的实际科学应用,基于高性能计算领域中广泛使用的Particle-In-Cell算法.本文旨在通过在"太湖之光"上移植GTC-P评估神威OpenACC对于应用的实际移植效果,然后对比神威OpenACC与OpenACC2.0标准在使用过程中的差异.但鉴于目前神威OpenACC编译器尚无法解决GTC-P仅利用指导语句移植后的性能瓶颈,本文提出了3种基于中间代码二次开发的优化方法:1)消除原子操作;2)避免低效的访存操作;3)手动添加SIMD intrinsic.最终,实验结果表明,在64个从核上相比1个主核,优化后的"charge"和"push"函数分别实现了1.6倍和8.6倍的加速比,同时GTC-P代码整体取得了2.5倍的加速比.本文的发现证明了基于中间代码的手动优化对PIC算法在"太湖之光"上的性能提升非常重要,更为神威OpenACC的进一步优化升级提供了实际的参考范例.
21.基于Portlet的高性能计算应用集成组件
- Cao Rongqiang;曹荣强;Wang Xiaoning;王小宁;Lu Shasha;卢莎莎;Xie Xiaowei;解晓伟;Xiao Haili
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：高性能计算WEB应用社区经常需要封装不同类型的应用,封装过程需开发或调整源代码.因此,社区管理员不能快速满足应用封装需求,特别是作业参数相对复杂的应用.通过分析不同作业管理系统的作业提交和管理命令、不同学科领域的高性能计算应用程序的使用方式、通用作业描述语言的结构和语义,本文提出了一种基于portlet的高性能计算应用集成组件,设计和实现了应用需求描述模板、作业提交页面动态渲染引擎、作业参数存储和填充方法,从而提供了基于WEB页面的应用封装、动态生成作业提交WEB页面和作业描述并提交作业的功能,并且支持以历史作业的输入数据填充作业提交页面的功能.分析及实例表明,该组件能够有效提高应用封装的响应速度,用户能够方便的提交作业和重用复杂的作业参数,具有良好的可移植性和扩展性.
22.基于高性能I/O技术的Memcached优化研究
- An Zhongqi;安仲奇;Du Hao;杜昊;Li Qiang;李强;Huo Zhigang;霍志刚;Ma Jie
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：内存对象缓存系统是互联网服务架构的重要组成部分，对服务性能及体验有着至关重要的影响。在典型的互联网服务系统中，由于传统数据库提供的查询机制(比如SQL)开销较大，难以承载大量的访问请求。通过内存对象缓存系统缓冲查询结果，在以读操作为主的场景中，能够将大量昂贵的数据库查询操作转换为简单高效的内存键值访问，从而提高性能。内存对象缓存系统在通信方面受制于传统以太网的高延迟,在存储方面受限于服务器节点的内存大小,亟需融合新一代高性能I/O技术来提升性能、扩展容量.本文以Memcached为例,聚焦内存对象缓存系统的数据通路并研究其通信加速与存储扩展问题.首先,本文基于日益流行的高性能RDMA通信技术,针对不同的Memcached操作及消息大小设计不同的策略,降低了通信延迟.其次,本文利用高性能NVMe SSD来扩展Memcached存储容量,并通过用户级驱动实现设备直接访问,降低了软件开销.最终,本文实现了支持Java环境的Memcached缓存系统U2Cache,U2Cache通过旁路Java虚拟机与操作系统内核以及内存拷贝、RDMA通信、SSD访问交叠流水的方法,显著降低了数据访问开销.实验结果表明,U2Cache通信延迟接近RDMA底层硬件性能;对大消息而言,相较无优化版本,性能提高超过20％;访问SSD中4KB大小以下的数据时,相比通过内核存储栈的方式,读操作延迟降低了10％以上.
23.基于OpenMP4.0的发动机燃烧数值模拟软件异构并行优化
- Yang Meifang;杨梅芳;Che Yonggang;车永刚;Gao Xiang
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：LESAP是一个超燃冲压发动机燃烧数值模拟软件,可模拟飞行器发动机燃烧室内的燃烧化学反应与超声速流动,具有实际工程应用价值,其计算量巨大.本文面向通用CPU与Intel集成众核协处理器(Many Integrated Core,MIC)构成的新型异构众核平台,使用新的OpenM4.0编程标准,实现了LESAP软件面向异构并行平台的移植,并采用SIMD向量化、数据传输优化、基于网格块划分的负载均衡等技术进行了性能优化.在天河二号超级计算机的1个结点(含2个12核的Intel Xeon E5-2692CPU加3块Intel Xeon Phi31S1P协处理器)上,对一个实际超燃发动机燃烧数值模拟问题,网格规模为532万单元时,每时间步的平均执行时间从原来纯CPU版的64.72秒减少到21.06秒,性能加速比达到约3.07.
24.基于阴阳网格的GRAPES模式通信优化
- Qiang Tang;唐强;Wanjing Wei;魏万敬;Xiaomeng Huang
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：随着高性能计算机的飞速发展以及人们对大气海洋小尺度运动探索的愈加需求,高分辨的大气海洋模拟已成为一种趋势,由此所带来的巨大运算量使得模式的并行可扩展性逐渐成为高分辨率模拟的瓶颈之一.阴阳网格对经纬网格有良好的继承性,并且准均匀,无奇异点,中国气象科学院在原有GRAPES(Global/Regional Assimilation and Prediction System)模式的基础上开发了基于阴阳网格的GRAPES模式.本文利用网格间映射关系设计并实现了"多对多"通信拓扑,为基于阴阳网格模式的网格间通信提供了一种新的高效解决办法.实验结果表明,新的通信方案使得基于阴阳网格的GRAPES模式在0.1°高分辨率下可以扩展到近千核水平,而相应模块在不同核数配置下取得了最低37.5倍,最高141.4倍的加速.
25.冷冻电镜软件RELION算法分析与GPU并行优化
- Wen Wen;温文;Su Huayou;苏华友;Li Dongsheng
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：单粒子冷冻电镜是结构生物学研究的重要手段之一,基于贝叶斯理论的冷冻电镜三维图像数据处理软件RELION具有很好的性能和易用性,受到广泛关注.然而其计算需求极大,限制了RELION的应用.本文针对RELION算法的特点,研究了基于GPU的并行优化问题.首先全面分析了RELION的原理、RELION程序的算法结构及性能瓶颈;在此基础上,针对GPU细粒度体系结构对程序进行优化设计,提出了基于GPU的多级并型模型.为了获得良好的性能,本文对RELION的数据结构进行重组.为了避免GPU存储空间不足的问题,设计了自适应并行框架.据所知,这是目前第一个基于GPU的RELION实现.实验结果表明,基于GPU的RELION实现可以获得良好的性能,相比于单CPU,整个应用的加速比超过35倍,计算密集型算法的加速比达到75倍以上.在多GPU上的测试结果表明基于GPU的RELION具有很好的可扩展性.
26.数据流程序动态调度与优化方法研究
- Yang Sheng-zhe;杨胜哲;Yu Jun-qing
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：为了解决数据流编程模型的可用性问题,使其能在兼顾程序并行性的前提下适用于动态数据交互速率的流应用,设计了一种动态调度与静态优化相结合的数据流编译系统.编译器以COStream语言编写的源程序为输入,通过对源程序进行分析,以动态速率的数据通信边作为边界划分程序到粗粒度的子图,在子图内部应用静态优化.根据子图的每个计算单元的工作量估计和计算资源的使用状况,实现子图内计算单元到处理器核的映射,经过阶段划分分配子图内计算单元到相应流水阶段.在运行时,每个子图在各个处理器核上均启动一个线程,通过对线程间通信的优化,避免了运行时多个线程对同一段内存同时读写产生的同步开销,减少了线程的上下文切换次数.使用信号量控制子图内线程间的同步,基于各子图计算单元运行时数据交互速率并结合当前线程的状态,动态调度各个子图的执行,构建动态的软件流水线,生成相应多线程目标代码.实验以通用X86-64多核处理器作为实验平台,测试和分析数据流编译的性能.实验结果表明,编译系统可以实现动态数据交互速率的数据流应用,扩大了编译系统可用性并且具有一定加速效果.
27.面向非结构网格数值模拟应用并行程序的图形化编程工具
- Jing Cuiping;景翠萍;Liao Li;廖丽;Wang Wei
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：本文面向高性能数值模拟,分析了基于并行应用编程框架快速研发并行数值模拟软件存在的挑战.在此基础上,以JAUMIN(J parallel Adaptive Unstructured Mesh applications INfrastructure)框架的应用为例,设计并实现了一种面向非结构网格数值模拟应用并行程序的图形化编程工具.该编程工具采用基于结构化流程图的图形化编程方式,屏蔽JAUMIN框架的编程接口,帮助用户在不学习编程框架的基础上快速开发基于编程框架的并行应用程序.实际应用表明,该工具可以显著提升并行应用软件的研发效率,降低用户编写并行数值模拟程序的难度.由于编程工具生成的代码规范统一,系统的维护效率也得以大幅度提高.
28.一种生物医学图像处理算法的性能分析和并行优化
- Guo Haoqiang;郭浩强;Yao Erlin;姚二林;Tan Guangming
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：在生物医学领域,随着观测显微镜不断的更新换代,图像处理的速度已经远跟不上图像产生的速度;而且为追求高质量的处理效果,图像处理算法也变得日益复杂,使得"速度矛盾"更为加剧.Structured Illumination Microscopy(SIM)是生物医学领域一个很重要的超分辨率显微技术,其中图像重构算法的运行速度是整个SIM图像处理流程的一个短板.本文的工作旨在多核平台上并行加速SIM图像重构算法.首先结合算法特点进行程序的性能分析,接着根据性能分析结果找到瓶颈,然后从粗粒度到细粒度逐层挖掘算法中潜在的并行性.通过不同的优化策略,实现了从算法级到进程级、线程级和指令级的并行优化,最终在16核intel平台上,相比单核串行算法得到了4×的加速效果.
29.基于GPU人工蜂群算法的改进模型在粒子滤波上的应用
- Wang Zhiguang;王智广;Liu Zehong;刘泽泓;Lian Yuanfeng;连远峰;Lu Qiang;鲁强;Li Xueju
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：本文结合人工蜂群算法和粒子滤波算法,提出了基于GPU上人工蜂群算法的粒子滤波方法.利用GPU多核并行计算能力和人工蜂群算法中人工蜂行为的独立性,将粒子分布作为人工蜂群算法中的食物源,提取粒子位置信息等不同维度,在GPU工作单元上实现粒子滤波.由于人工蜂迭代计算适应度,改善了粒子滤波中粒子贫化的现象,同时GPU上的多核并行化计算避免了适应度陷入局部最优解.通过在多个具有挑战性的视频上与多种优秀算法对比实验表明,本文提出的算法可以良好适应光照变化、遮挡、旋转以及复杂背景等问题.
30.对于大规模系统日志的日志模式提炼算法的优化
- Zhao Yining;赵一宁;Xiao Haili
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：LARGE系统是部署在中科院超级计算环境中的日志分析框架,通过日志收集、集中分析、结果反馈等步骤对环境中的各种日志文件进行监控和分析.在对环境中系统日志的监控过程中系统维护人员需要通过日志模式提炼算法将大量的过往系统日志记录缩减为少量的日志模式集合,然而随着日志规模的增长以及messages日志文件的特殊性,原有的日志模式提炼算法已经难以满足对大规模日志快速处理的需要.本文介绍了一种对于日志模式提炼算法的优化方法,通过引入MapReduce机制的概念实现在存在多个日志输入文件的情况下对日志处理和模式提炼的流程进行加速的效果.实验证明当输入文件较多时该优化方法能够显著提高词汇一致率算法的运行速度,大幅减少了运行时间.此外还对使用词汇转换函数时的算法运行时间和提炼效果进行了验证.
31.需求驱动的符号执行技术
- Yang Xiaochuan;杨小川;Huang Liangming;黄亮明;Bai Shujing;白书敬;Jiang Jun
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：随着高性能计算技术和约束求解理论的发展,符号执行再次成为学术界和工业界的研究热点.路径爆炸和约束求解是制约符号执行走向大规模应用的两大瓶颈.许多典型的符号执行优化技术都是关注于如何提高运行时的符号执行效率,而忽略了待分析程序本身对符号执行带来的性能影响.为了提高符号执行的效率,本文针对实际应用场景,提出需求驱动的符号执行技术.其基本思想是利用编译器首先将用户感兴趣的函数作为目标函数,然后将目标函数的参数作为关键变量,通过对源程序进行关键变量分析,利用编译器有目的地缩减程序规模,来提升随后的符号执行效率.这为符号执行提供了一种新的思路.理论分析和初步实验表明,需求驱动的符号执行技术,可以有效地提升利用符号执行工具分析程序代码的效率.
32.基于L0 cache的低功耗编译优化技术
- Wu Wenhao;武文浩;Li Ao;李敖;Wu Wei;吴伟;Wang Fei;王飞;Guan Maolin;管茂林;Xiao Qian
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：为了缓解日益严峻的高性能处理器功耗墙问题,本文进行了功耗模型和低功耗优化技术的研究.基于gcc+gem5+mcpat的设计方案,成功实现编译、运行、数据采集、数据转换、功耗模拟及输出等功耗模拟评估方案,在该功耗模型上添加L0cache硬件结构,进一步展开低功耗编译技术在L0cache上的实现,最后通过实验,验证了该模型的科学性以及低功耗编译技术的有效性.
33.虚拟化系统中冗余与监测维修联合策略的分析及优化
- He Pan;何盼;Yuan Yue;袁月;Tan Chun;谭春;Yao Yuan
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：为了保持虚拟化系统可靠性,冗余与基于监测的维修策略常常被同时应用于虚拟化系统中.现有研究往往关注于单一策略的分析及优化,对联合策略的影响未做深入分析.针对该问题提出了虚拟化系统中联合策略的可靠性及性能分析方法,并基于性能优化模型建立了策略配置参数选择方法.联合策略的可靠性及性能指标通过基于马尔可夫链的分析模型获得,所构建的系统优化模型旨在一定可靠性约束条件下对性能进行最大化.由于无法获得该优化模型的精确表达式,基于敏感度分析建立了基于条件的二叉搜索算法求解该模型并获得配置参数的近优值.通过实例实验验证了系统性能的分析模型与参数求解方法,实验结果证明:与传统单一策略优化方法相比,冗余与监测维修联合策略优化的系统性能有一定提高.
34.带宽保证感知的云数据中心虚拟机放置算法
- Li Long;李龙;Wang Zhuang;王壮;Wu Jie;吴洁;Liu Ke;刘珂;Fu Binzhang;付斌章;Chen Mingyu;陈明宇;Zhang Lixin
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：云计算数据中心中运行着大量带宽敏感型应用.这些应用的性能主要由其所能获得的网络带宽决定.因此,数据中心需要为这些应用提供带宽保证支持,从而为它们提供可预测的性能.为了实现这个目的,数据中心虚拟机放置算法首先需要确保链路上分配的保证带宽的总和不超过相应链路的带宽容量.然而,现有的虚拟机放置算法或者不考虑租户的带宽保证需求,或者仅采用单维资源模型.为此,本文提出一种基于多维资源模型的虚拟机放置算法.本文将带宽保证感知的虚拟机放置问题表示为以最小化服务器使用量为目标的非线性规划问题,并提出求解该非线性规划问题的启发式算法.实验结果表明同现有的相关虚拟机放置算法相比,本文提出的虚拟机放置算法可以有效地减少服务器的使用量和数据中心的成本.
35.一种基于正弦变换的三维泊松方程并行求解算法
- Lin Shiwei;林士伟;Zhang Weimin;张卫民;Fang Minquan;方民权;Li Song
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：泊松方程的数值解法在许多物理或者工程问题上得到广泛应用,但是由于大部分三维泊松方程的离散化格式不具有明显的并行性,实际中使用整体迭代的思想,这使得计算效率和稳定性受到了限制.本文摒弃了传统数值解法中整体迭代的思想,结合离散正弦变换理论(DST),基于27点四阶差分格式,将三维泊松方程求解算法在算法级进行修改和并行优化,把整个求解问题转化成多个独立的问题进行求解,稳定性和并行性能得到大幅提升.对于确定的离散化形式,可以使用同一套参数解决不同的泊松方程,大大提高了编程效率.基于共享存储并行模型实现了该算法,实验结果显示,对于给出的实例,新算法具有较好的加速效果,计算结果精度误差约为10e-005,在可接受范围内,并且计算精度随着维数的升高具有一定提升.
36.内存计算框架Spark的数据失效恢复策略
- Ying Changtian;英昌甜;Yu Jiong;于炯;Bian Chen;卞琛;Lu Liang;鲁亮;Qian Yurong
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：内存计算框架充分利用RAM的低延迟特性,有效避免磁盘I/O性能瓶颈,大幅提高了计算效率.然而内存计算框架作业执行过程中,在数据失效时需要工作节点重新计算,较长的lineage和宽依赖的Shuffle同步操作导致恢复过程不仅浪费计算资源,更增加了作业延时,降低了恢复效率.本文针对内存计算框架Spark的数据失效恢复问题,建立了执行效率模型和任务恢复模型,提出了算法的优化目标.根据模型的相关定义求解,设计了失效恢复策略,建立适应节点计算能力的备份及恢复策略,有效缩减失效时的恢复延时,优化恢复效率.实验表明:该算法提高了内存计算框架作业恢复效率,使集群资源得到有效利用.
37.面向移动设备的温度感知的任务调度算法
- Mo Wendao;莫文导;Lin Weiwei;林伟伟;Wen Angzhan;温昂展;Li Yeda
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：由于志愿者分布式计算可以为计算量庞大的科研项目提供足够的计算能力,甚至比超级计算机的计算能力还要强大.因此,志愿者分布式计算技术受到了很多研究人员的关注,很多不同的志愿者分布式计算架构被广泛应用.以往的很多志愿者分布式计算架构通常考虑的志愿者主机是PC电脑,或者单纯地把移动设备当作PC电脑一样进行处理.由于移动设备的很多特性跟PC电脑存在着很大的差异,所以很多时候这些志愿者分布式计算架构并不能高效地处理同时拥有PC电脑和移动设备志愿者的志愿计算项目.针对志愿者分布式计算系统上两个主流的志愿者分布式计算任务调度方法——迭代计算的任务调度算法和先来先服务的调度算法FCFS在处理移动设备志愿者计算上存在着的不足,为了提高志愿者分布式计算平台的执行效率,提出了一个面向移动设备的温度感知的任务调度算法TATSA.实验结果表明,提出的面向移动设备的温度感知的任务调度算法TATSA比主流的任务调度算法ISA和FCFS在移动设备志愿者计算时效率明显更高.
38.大规模集群上多维FFT算法的实现与优化研究
- Li Kun;李琨;Jia Haipeng;贾海鹏;Cao Ting;曹婷;Zhang Yunquan
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：FFT(Fast Fourier Transform)是用于计算离散傅里叶变换(Discrete Fourier Transform,DFT)或其逆运算的快速算法,在工程、科学和数学领域的应用非常广泛,例如信号分解、数字滤波、图像处理等.在目前正在进行的国际大科学工程——平方公里阵列射电望远镜(SKA)中的子项目中也需要大规模FFT算法的实现.所以,在实际应用中对FFT算法进行细粒度优化是非常重要的.本文研究了FFT算法常用分解策略以及FFT算法在大规模集群系统上的并行实现,并提出了相关的优化策略.在此基础上,本文对多种FFT算法在不同平台上进行了性能评估,并分析了各算法的实现、优缺点以及其在大规模计算时的可扩展性.实验结果表明,本文的相关研究有助于对现有的FFT算法进行进一步地优化,以及指导如何在大规模CPU+GPU的异构系统上根据不同需求选择实现性能更优的FFT算法.
39.一种支持国产异构众核处理器的OpenCL编译系统
- Wu Mingchuan;伍明川;Huang Lei;黄磊;Liu Ying;刘颖;He Xianbo;何先波;Feng Xiaobing
- 《2016年全国高性能计算学术年会》 | 2016年
摘要：为了降低程序员的编程难度、同时提高软件的可移植性,设计并实现了支持国产SW26010众核处理器的OpenCL编译系统.本编译系统提供了OpenCL平台模型、内存模型和执行模型到SW26010众核处理器的映射机制,并调用编译工具生成可执行的目标文件.最后通过实验验证了本系统的正确性和有效性.本文通过实验验证了编译系统的正确性，并给出例子说明了编译前后的代码变化，编译系统最终生成的可执行文件在SW26010众核处理器上能够正确运行，并与Nvidia K40GPU的性能进行了比较，要使得大量的OpenCL程序在SW26010上获得良好的性能，还需要进一步的优化和调试工作，这也是接下来主要的工作方向。