并行计算
并行计算的相关文献在1985年到2023年内共计5838篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、电工技术
等领域,其中期刊论文4485篇、会议论文828篇、专利文献388631篇;相关期刊1134种,包括计算机工程、计算机工程与科学、计算机工程与设计等;
相关会议446种,包括2014全国高性能计算学术年会、2012全国高性能计算学术年会、2011年全国高性能计算学术年会(HPC china2011)等;并行计算的相关文献由12078位作者贡献,包括莫则尧、金先龙、迟学斌等。
并行计算—发文量
专利文献>
论文:388631篇
占比:98.65%
总计:393944篇
并行计算
-研究学者
- 莫则尧
- 金先龙
- 迟学斌
- 宋君强
- 李晓梅
- 陆忠华
- 刘杰
- 李涛
- 陈勇
- 张理论
- 张爱清
- 李斌
- 陈军
- 金之雁
- 刘旭
- 王希诚
- 王正华
- 张武
- 张鉴
- 李桦
- 江岭
- 王鹏
- 胡长军
- 陈德训
- 付朝江
- 刘鑫
- 吴建平
- 姜弘道
- 宋效东
- 张卫民
- 曹小林
- 李强
- 汤国安
- 胡庆丰
- 迟利华
- 陈庆奎
- 丁峻宏
- 刘兴平
- 刘羽
- 周海京
- 姜金荣
- 王勇献
- 王斌
- 王磊
- 祝永志
- 窦万峰
- 陆鑫达
- 伍贻兆
- 张云泉
- 张健飞
-
-
李姗姗;
骆开达;
卫守林;
戴伟;
梁波
-
-
摘要:
快速傅里叶变换(Fast Fourier Transform,FFT)比傅里叶变换有更好的算法性能,是射电干涉成像的基础算法,但因为天线阵列的不规则采样,需使用网格化算法将可见度数据重采样到规则的网格上才能应用.基于卷积的网格化计算具有密集型和迭代型的特点,特别是处理海量可见度数据的情况下,高性能的网格化计算对整个成像过程加速尤为重要.为了缓解数据处理的压力,在现有处理整块数据和支持多核计算的算法基础上,拓展应用Dask并行计算框架,不仅将数据分块并分配到多线程上,提高数值计算效率,而且动态的分布式任务调度策略优化了网格化的实时处理.实验结果表明,多核中央处理器利用率显著提高,即使增加数据量,也能进一步提高网格化算法的性能.分布式任务调度能够将单(多)测量集的网格化弹性缩放到单(多)机系统,充分发挥集群的规模化优势.
-
-
孙宽飞;
杨文革;
滕飞;
焦义文;
高泽夫
-
-
摘要:
PCM/FM信号的非相干鉴频解调存在门限效应,将多符号检测技术引入PCM/FM信号的解调中,可以提高约3 dB的解调增益。多符号检测多采用FPGA实现系统功能,存在硬件设计周期较长、硬件平台通用性低和升级难度大等问题,距离软件无线电设计理念有较大的差距。针对传统硬件实现的问题,设计了基于GPU的多符号检测实现方法,根据算法原理和GPU并行方法设计出基于GPU的并行滑动相关实现方法;据此设计了基于GPU的多符号检测算法的并行化方法;设计了基于GPU的Gardner位同步算法。实验结果显示,基于GPU的多符号检测算法满足实时性的要求,解调增益稍优于FPGA系统。
-
-
周志强;
崔国民;
杨岭;
马秀宝;
肖媛;
杨其国
-
-
摘要:
换热网络优化是化工过程系统工程领域的研究难点,其数学模型具有高度的非凸、非线性,在使用单一启发式算法优化时,往往具有局限性。研究以换热网络的年综合费用最小为目标,针对强制进化随机游走(RWCE)算法在优化时由于个体间独立进化,导致优化过程中信息缺乏交流的问题,提出将遗传算法(GA)与其混合。混合后的算法在保持前一半优势种群中的个体单独进化的基础上,通过周期性的交叉、变异等操作产生子代来替换掉劣势种群,从而增强了原有算法的整型变量优化能力,并弥补了弱势个体无法更新的不足。为了兼顾算法在大种群下优化有分流换热网络的计算效率,节约时间成本,使用OpenMP系统将混合算法实现了并行化设计。通过三个不同规模的换热网络问题对并行后的混合算法进行验证,结果表明该算法能在有效提升优化质量的前提下相比串行算法大幅缩短计算时间,其中两个算例突破了目前文献最优解。
-
-
王宇;
刘崇茹;
侯延琦;
刘昊宇;
李庚银
-
-
摘要:
模块化多电平换流器(MMC)中数以千计的子模块(SM)给控制器计算带来很大负担。海量数据采集、复杂控制计算以及不同控制器间通信等因素导致整个控制链路延时较长,恶化系统动态特性,甚至导致并网后系统不稳定。设计了一种基于现场可编程门阵列(FPGA)的集成控制器,在单块FPGA板卡中实现MMC的全部控制策略。控制器充分发挥FPGA的并行特性,每种控制模块尽可能采用并行设计,并将相互独立的控制模块并行执行,以提高控制器的计算速度。基于RTDS平台进行了硬件在环实验,对所开发控制器进行功能验证。结果表明:所开发控制器链路延时短,响应速度快,可用于控制策略开发测试、控制参数调试等领域。
-
-
王小庆;
胡文韬
-
-
摘要:
由于高/超高增压比需要,民用航空发动机转子级数达到10级及以上,数值计算规模在百万自由度以上,需通过并行计算提高设计效率。针对民用航空发动机转子的并行数值计算方法开展研究,从区域分解模式、并行计算模式角度进行分析,结果表明:采用基于图理论的分区方式优于基于贪婪法的分区方式;相对于共享内存式并行计算模式,采用分布内存式并行计算模式可获得更短的计算耗时;针对百万自由度级民用航空发动机转子的并行计算,采用基于分布内存式并行计算模式、基于图理论的分区模式、计算核数为16核时,可以获得最佳并行计算效果。确定了针对百万自由度计算规模的民用发动机转子的最优并行计算配置,为实现民用发动机转子的快速设计提供了参考。
-
-
邱鑫源;
叶泽聪;
崔翛龙;
高志强
-
-
摘要:
为了解决数据共享需求与隐私保护要求之间不可调和的矛盾,联邦学习应运而生。联邦学习作为一种分布式机器学习,其中的参与方与中央服务器之间需要不断交换大量模型参数,而这造成了较大通信开销;同时,联邦学习越来越多地部署在通信带宽有限、电量有限的移动设备上,而有限的网络带宽和激增的客户端数量会使通信瓶颈加剧。针对联邦学习的通信瓶颈问题,首先分析联邦学习的基本工作流程;然后从方法论的角度出发,详细介绍基于降低模型更新频率、模型压缩、客户端选择的三类主流方法和模型划分等特殊方法,并对具体优化方案进行深入的对比分析;最后,对联邦学习通信开销技术研究的发展趋势进行了总结和展望。
-
-
党皓天;
刘东;
陈飞;
赵现平;
刘斯扬;
王宏宇
-
-
摘要:
随着主动配电网以及物联网技术的发展,无功设备的接入呈现复杂化和边缘化趋势,电压控制的相关计算也向边缘计算发展。由于算力受限,边缘终端纯软件式的计算所需时间较长,无法满足控制的实时性要求。针对此问题,文中提出一种基于片上系统现场可编程门阵列(SoC FPGA)硬件并行化计算的配电网电压控制策略。首先,设计基于SoC FPGA的软硬件计算框架;然后,对配电网电压控制模型及遗传算法求解方法做出适用于FPGA计算的针对性改进;最后,分模块设计FPGA硬件求解结构。算例场景验证表明,相比于边缘终端纯软件式的求解方式,文中所提策略在电压越下限、电压越上限场景的平均求解效率分别提高了2.41倍和2.15倍,可有效提升电压控制的实时性。
-
-
刘颖辉;
迟学斌;
姜金荣;
张峰
-
-
摘要:
基于GPU的异构计算逐渐成为主流计算方法,但限于科学计算编程的历史发展,大量的数值计算软件仍以Fortran语言实现.为了提高计算速度,大量的软件需要移植为CUDA C,但人工实现程序移植是一项浩繁的工程.若能实现从Fortran到CUDA C的自动转换,可以极大的提高程序开发效率.本文设计了将Fortran转换为CUDA C的算法,并基于正则表达式和shell脚本实现了该算法,编写测试用例进行了验证.实验表明,该算法可靠稳定兼容性好,在大型程序的移植过程中,能够自动筛选并建立变量信息表,生成CUDA相关操作函数,且结果代码可读性较好,转化正确率达80%以上,有效减少了移植的工作量.
-
-
李政清;
穆继亮
-
-
摘要:
在FPGA数据处理应用场合中,引入神经网络能够提高数据特征的学习能力。但是基于非嵌入式的神经网络在运算过程中通常具有显著的复杂性和稀疏性,难以直接应用于FPGA上。于是,为了提高FPGA在数据处理时的并行性和高效性,设计了基于卷积网络加速器的FPGA数据处理架构。首先对卷积网络的层进行优化设计,采用ReLU函数来加速卷积层的收敛,同时采用平均池化方案增强网络适应性,通过卷积的尺度变换对特征图采取压缩,达到在一个层中并行计算的目的。然后对FPGA的处理模块和缓存模块进行优化设计,判定器对有效数据的权值索引和计数等参数采取验证,将大量的乘加操作递交给FPGA的DSP来处理;对特征图及其中间变量采取BRAM缓存,根据横向、纵向,以及深度分别采取分配。最后,对加速器执行过程中FPGA的资源利用和执行时间进行分析,通过资源和时间因素对加速器执行过程采取调整。实验结果表明,基于卷积网络加速器的FPGA数据处理方案提高了FPGA的资源利用率和有效算力,无论是在不同平台或是不同加速器的对比情况下,都能够获得更为优秀的数据处理性能。
-
-
杜翠;
王宁;
刘杰;
程远水;
张千里;
刘欢
-
-
摘要:
为了提升探地雷达(Ground Penetrating Radar,GPR)数据信号处理算法的性能,建立了一种适用于单机模式的多线程并行处理方法。分析了GPR信号处理算法的并行性特征,对文件头和数据道分离存储以支撑任意道集的细粒度数据划分,采用简便的静态调度实现并行任务调度。对5种常用算法进行了串并行对比试验。结果表明:复杂度较高的算法更适宜进行并行化改造,加速比约为硬件环境物理核数,线程数可根据物理核数和CPU线程数进行优选。当数据量变化时,算法的并行加速比保持稳定,表现出良好的适应性。
-
-
ZHANG Wei;
张伟;
ZHANG Li-min;
张立民
- 《第十六届中国古脊椎动物学学术年会》
| 2018年
-
摘要:
在开展生命之树重建的研究工作中,涉及海量数据,包括古生物学、形态学、分子生物学、生态学等学科领域的全证据数据,使用最大简约性、最大似然、贝叶斯等模型对这些数据进行分析,需要具有超强计算能力的计算机.普通的台式工作站、中小型机等已经不能满足计算要求.利用计算机集群开展并行计算,是目前技术条件下最经济、最稳定、最可靠的途径.在此介绍如何在LINUX集群环境下安装配置与调试PVM虚拟机,同时使用最常用的树分析软件TNT完成简单的树重建.介绍TNT软件的ptnt命令如何在PVM环境下运行,实现并行计算.
-
-
Hu Chen;
陈虎;
Yingwen Yang;
杨颖文
- 《2018年全国高性能计算学术年会》
| 2018年
-
摘要:
针对蒙特卡罗模拟等一大类并行计算问题提出了基于分解、计算和规约的多任务并行计算模型,并开发了支持此模型的运行框架.通过此并行计算模型和运行框架,用户可以集中精力于特定的计算问题,负载均衡、节点管理、多任务计算资源分配、依赖关系控制、消息传递等均由运行框架实现,有效地提升了大规模并行计算软件的开发效率.本文介绍了该计算模型的基本原理,特别是在多任务方面的依赖关系描述、消息通信、计算资源分配等特点.随后,文章较为详细地介绍了运行框架的总体结构、线程结构和队列结构,以及多任务方面实现的细节.采用控制子任务发送速度方法实现了多任务组之间的计算资源虚拟分配.与此同时,还使用多级队列流水线工作方式和区分子任务计算类型方法来提升计算节点的吞吐率.论文最后给出了运行框架在"神威太湖之光"和"天河二号"超级计算机上的运行测试,验证了计算能力分配和处理失效计算节点方法的有效性.
-
-
LIU Qing;
刘青;
DONG Hongsheng;
董红生;
MA Huixia;
马慧霞
- 《2019年西南三省一市自动化与仪器仪表学术年会》
| 2019年
-
摘要:
作为数字信号处理重要组成部分的数字滤波器,随着近几年来数字信号处理技术和相关芯片的长足发展,发挥着越来越重要的作用.因此,在分析自适应滤波器理论和LMS算法的基础上,针对自适应陷波滤波器,基于LMS自适应算法,提出了一种FPGA的设计和实现方法.该方法通过采用模块化和并行计算的设计,结合符号LMS自适应算法与频域变化法,能够设计并实现具备工频干扰频率实时追踪和滤除的自适应陷波滤波器.经过Matlab、Modelsim仿真及实验测试,设计出的自适应陷波滤波器能够实时获取工频干扰信号的特征频率,且能对其进行有效滤除,不会对有用信号造成影响.因此具有较强的滤波能力和可靠性,能为相关自适应滤波器的设计与FPGA的实现提供参考.
-
-
陈志夫;
孙瑞;
陈刚
- 《2019 Altair 技术大会》
| 2019年
-
摘要:
为解决传统CFD方法在车型空气动力学开发过程中前处理效率低、仿真成本高及仿真精度偏低等瓶颈问题,将GPU高性能并行计算与格子玻尔兹曼(LBM)算法相结合,应用ultraFluidX软件中的虚拟风洞仿真技术,对15个方案的气动性能开展分析,并与风洞试验结果进行对比,主要结论为:最大仿真绝对误差小于9count,最小绝对误差仅为lcount;10个影响量趋势分析中,9个方案的影响量趋势一致,趋势不一致方案的影响量仅为1count.该方法前处理效率高、仿真成本低及仿真精度高,可应用于车辆空气动力学性能开发.
-
-
-
SHI Chuang;
施闯;
WANG Cheng;
王成;
ZHANG Tao;
张涛
- 《2018测绘遥感高层论坛》
| 2018年
-
摘要:
为应对日益丰富的观测数据以及数据再处理对高性能计算的需求,开发了基于OpenMP以及MPI(Message Passing Interface)并行计算的全球电离层快速建模算法.采用武汉大学超级计算机对全球电离层建模效率进行了不同并行计算方案的实验.结果表明,采用多节点MPI并行计算能够极大地提高数据处理效率,相比传统单节点串行计算提高了近30倍,相比单节点OpenMP并行计算提高了近3~4倍.MPI并行计算方案充分利用了丰富的计算机资源来提高全球电离层建模效率,对电离层建模算法的快速测试、产品的重新再处理具有重要作用,对多系统全球导航卫星系统(Global Navigation Satellite System,GNSS)快速精密定轨、大规模GNSS网解也有较好的参考价值.
-
-
-
-