并行算法
并行算法的相关文献在1989年到2022年内共计2221篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、数学
等领域,其中期刊论文1899篇、会议论文281篇、专利文献67058篇;相关期刊631种,包括计算机工程、计算机工程与科学、计算机工程与应用等;
相关会议184种,包括2014全国高性能计算学术年会、2012全国高性能计算学术年会、2011年全国高性能计算学术年会(HPC china2011)等;并行算法的相关文献由4083位作者贡献,包括李晓梅、钟诚、陈国良等。
并行算法—发文量
专利文献>
论文:67058篇
占比:96.85%
总计:69238篇
并行算法
-研究学者
- 李晓梅
- 钟诚
- 陈国良
- 李庆华
- 吕全义
- 李肯立
- 吴建平
- 胡辉
- 陈宏建
- 陈崚
- 刘杰
- 李文敬
- 胡宁
- 陈忠
- 周海芳
- 张汝清
- 宋君强
- 杨学军
- 沈绪榜
- 胡庆丰
- 尚月强
- 徐金秀
- 周树荃
- 武继刚
- 迟利华
- 刘德贵
- 张德富
- 杨爱民
- 李俊山
- 笪良龙
- 许胤龙
- 马绍汉
- 慕德俊
- 曹小林
- 李朝鹏
- 杨文
- 王攀峰
- 肖汉
- 莫则尧
- 金先龙
- 顾乃杰
- 骆志刚
- 刘大刚
- 孙世新
- 张云泉
- 张京军
- 张武
- 徐晓华
- 徐磊
- 李双
-
-
张茜;
詹明;
章坚武;
王富龙;
冯云开;
唐浩
-
-
摘要:
为满足无线通信中高吞吐、低功耗的要求,并行译码器的结构设计得到了广泛的关注。基于并行Turbo码译码算法,研究了前后向度量计算中的对称性,提出了一种基于前后向合并计算的高效并行Turbo码译码器结构设计方案,并进行现场可编程门阵列(field-programmable gate array,FPGA)实现。结果表明,与已有的并行Turbo码译码器结构相比,本文提出的设计结构使状态度量计算模块的逻辑资源降低50%左右,动态功耗在125 MHz频率下降低5.26%,同时译码性能与并行算法的译码性能接近。
-
-
郑力
-
-
摘要:
随着全球期权市场规模逐年增大,为了满足实时交易、监管和制定决策等需求,计算速度是银行业重点考虑的要素之一。通用图形处理器在解决金融领域大规模数据并行计算问题上发挥着优秀的性能。讨论在局部波动率模型上期权定价蒙特卡罗方法的图形处理单元(graphics processing unit,GPU)并行加速问题,比较使用C++和openACC实现的欧式看涨期权和亚式看涨期权的CPU串行定价程序与GPU并行定价程序之间的时间开销和加速比。测试表明,在搭载了NVIDIA Tesla P100 GPU的计算机上GPU并行算法取得了加速效果。
-
-
许晓阳;
王斯棋
-
-
摘要:
作为一种典型的拉格朗日型无网格数值方法,光滑粒子流体动力学(SPH)方法在模拟自由表面流问题时具有天然优势。但是,该方法计算量大、耗时长,为此提出了一种基于粒子分解的SPH并行算法。该算法将所有粒子平均分配到各个进程进行计算,每个时间步通信仅调用一次发送、接收和广播函数,因此易于实现且可扩展性较好。应用该并行算法对二维溃坝流和三维液滴冲击液膜问题进行数值模拟,结果表明:该并行算法能显著减少模拟所消耗的计算时间,有利于进行三维大规模计算问题的数值模拟;当粒子数大于百万时,最大加速比可达30以上。
-
-
邓敏;
伍志高;
姚志强;
陈永其
-
-
摘要:
在中大规模无人机干扰资源调度中,针对现有模型约束条件简单、调度算法适用规模较小的问题,该文提出了带最少任务数约束的资源调度模型,以最大化干扰效益和最小化成本为目标,用层次分析法对效益与成本指标赋权,并设计了一种用精英集加快收敛的改进并行遗传算法。在中等规模和500:500(干扰资源数:目标数)的更大规模仿真实验中,所提算法与遗传算法、非支配排序遗传算法II、修复遗传算法、基于岛屿模型的并行遗传算法和自适应模拟退火遗传禁忌搜索算法的性能相比,能在更短的时长内达到较优的目标函数值。
-
-
吴立勋
-
-
摘要:
本文研究了Volterra级数模型全解耦辨识算法,提出Volterra级数模型并行辨识算法的设计思想,设计了并行算法。实验和仿真结果表明,该算法能有效减小模型的在线辨识时间,能有效克服Volterra级数模型辨识中的维数灾难问题,且收敛速度快、稳态精度高,有利于实现工程应用。
-
-
王金元;
王宇;
张亚松;
林昊;
龚致富;
李盼;
安新艳
-
-
摘要:
传统的异常数据监测算法依靠单台计算机对异常数据进行识别,识别速度慢,且无法满足对数据处理的精确性要求。针对上述问题,文中构建了Hadoop分布式财务异常数据分析模型。该模型采用Hadoop中的MapReduce框架作为并行计算框架,同时在数据异常检测算法方面引入了邻域关系的LOF算法,有效避免了数据集元素边缘可能会出现误判的情况。数值实验结果表明,文中所提算法的准确率相比其他3种同类算法提升了5%以上,且算法的总运行时间也明显缩短。由此可见,文中所提模型可快速、准确地检测出财务异常数据,保障医疗系统的平稳运行。
-
-
刘田田;
刘伟杰;
杨洋;
郑澎
-
-
摘要:
面向装配信息缺失的复杂几何模型结构分析问题,提出一种适用于任意曲面类型的接触关系并行识别方法。根据模型几何特征自动计算局部容差,采用基于局部容差的三角形碰撞检测技术进行接触识别,有效提升算法精度。利用多线程并行技术,结合包围盒筛选技术和空间划分技术提高识别效率。算法能高效地自动识别数百上千部件模型包含的接触关系。通过对复杂几何模型的测试表明,算法具有高精度、高效率的特点。最后,将接触关系识别的结果应用到实际工程模型的结构分析计算中,进一步验证了算法的有效性。
-
-
李岷轩;
江树刚;
吴庆恺;
林中朝
-
-
摘要:
针对使用非结构网格的时域间断伽略金方法在并行计算时通信复杂的问题,提出一种适用于瞬态电磁场大规模并行计算的最小通信周期策略。将进程间点对点通信的拓扑结构映射为通信矩阵,利用通信缓冲区未满时非关联进程的通信互不干扰特性,对互不干扰的进程通信顺序进行排序,将每轮同时进行的通信记为同一个通信周期,重新填充通信矩阵。最小通信周期策略对初始通信矩阵不断递归地取各元素余子式,每次递归结束后即得到一个通信周期中同时进行通信的进程,将这些进程对应的元素排除在下一次递归之外,直到所有初始通信矩阵所有元素排序完毕。最小通信周期策略能够有效降低并行迭代计算过程中的总通信周期数,减少通信过程消耗的时间,从而提升算法的计算效率。与传统策略相比,最小通信策略的通信周期数缩减到3%,并行效率显著提高,计算时间减少。同时,使用该策略在国产超级计算机神威·太湖之光上以8000核组(8000进程,520000核心)进行计算时取得了约70.38%(10倍扩展)的并行效率。
-
-
林明锦;
王建新;
王超
-
-
摘要:
为应对由客户的动态需求、大型货车的限行政策及配送时间窗的限制给供应商制定科学配送计划带来的严峻挑战,设计考虑动态度和时间窗的两级车辆路径优化方法。该方法基于客户动态增量概率阈值及动态度构建响应增量需求的车辆路径更新策略;将连续两级车辆路径优化问题映射为由配送中心到中转站和由中转站到客户的两个子网络的带时间窗的车辆路径问题(VRPTW),并在并行模拟退火算法框架下融合Or-opt,2-opt,2-opt*,Swap/shift 4种邻域搜索策略求解VRPTW。用数据案例对模型及算法进行验证,表明所提策略及方法能较好地满足供应商对客户动态需求的响应,且具有良好的鲁棒性。
-
-
潘登;
钟诚
-
-
摘要:
通过构建参考基因组的二级Hash索引,以快速筛选出测序长序列在参考基因组中可能匹配的候选区域;建立测序序列局部索引,以加速测序序列和参考基因组候选区域之间的映射定位;对每个候选区域里的k-mer与测序序列的索引命中进行左右扩展获得比对种子;采用等距离抽样方式对种子抽取多个位置,利用抽样结果建立判断依据来过滤掉那些不可能匹配的种子;建立处理包含“均聚物”类型错误的序列片段全局比对得分方程,并行填补比对骨架的空隙,并采取GPU显存预分配和后释放独立的并行比对策略,以提升序列片段全局并行比对效率.模拟与真实数据的实验结果表明,相较于已有同类的长序列比对并行算法,本文提出的并行算法获得整体上较高的比对敏感度、碱基层次灵敏度和准确度,且可有效处理第3代测序长序列含有的“均聚物”类型错误,显著加速了大规模长序列与参考基因组比对的完成.
-
-
赵自雄;
胡鹏
- 《第十九届中国海洋(岸)工程学术讨论会》
| 2019年
-
摘要:
浅水模型在水利工程、海岸工程和环境工程等领域应用广泛.现有基于有限体积法和近似黎曼算子的浅水模型的时间步长受限于CFL条件,计算效率偏低.针对该类模型实现了主流的加速并行算法,包括基于计算机硬件的OpenMP和CUDA-GPU,以及基于算法本身软件的局部分级时间步长技术(LTS:local time step)和它们之间的组合.应用模型模拟了试验条件下溃决洪水流经建筑物群的过程,得到如下认识:首先,在串行计算条件下,PGI编译器(即CUDA Fortran的编程环境)的计算效率比Intel Fortran编译器低,相差1.5~1.6倍;其次,GPU的加速效果优于Open MP:网格规模越大,优势越明显.再次,如果网格规模较小,OpenMP+LTS可达到和GPU近似的加速效果.最后,GPU+LTS可在单纯GPU并行计算基础上,进一步大幅度提升计算效率.
-
-
Ruixin Guo;
郭睿欣;
Feng Zhang;
张锋;
Lizhe Wang;
王力哲;
Wusheng Zhang;
张武生;
Xinya Lei;
雷辛亚;
Erkang Xue;
薛尔康
- 《2018年全国高性能计算学术年会》
| 2018年
-
摘要:
现有的并行矩阵分解算法通常采用对矩阵分块的方法,将互不冲突的分块并行地计算.负载不均衡是同步并行算法中常见的问题——各分块中评分数量差异较大,导致线程阻塞和空等待,降低并行效率.本文提出一种"均衡分块"的方法,通过分别调整行块、列块尺寸均衡评分数的分布,达到方体块评分均衡的目标.以块评分数方差衡量"均衡",从理论上分析和证明了均衡分块的可行性;将均衡分块应用于DSGD和CCD++等并行矩阵分解算法,通过大规模分布式实验,验证了该方法能大大提升并行性能."均衡分块"作为一种普适的负载均衡思想,适用于基于矩阵分块、同步的矩阵分解并行算法,具备广泛的应用价值.
-
-
Zou Peigang;
邹佩钢;
Chen Jun
- 《2016年全国高性能计算学术年会》
| 2016年
-
摘要:
在图及其它离散的结构上进行大规模的计算在包括计算生物学、网页搜索及知识发现等众多领域发挥着日益重要的作用.但是,与相对成熟的数值科学计算相比,以图计算为代表的高性能组合计算是一个新兴领域,如何使大规模图计算获得高性能是一个待解决的问题.高性能数值计算的许多方法,特别是针对稀疏矩阵计算的并行算法及数据结构可以为并行图计算提供支撑.本文在Combinatorial BLAS上实现了对同辈压力(Peer Pressure)图聚类的并行优化,将图计算转化为对稀疏矩阵的计算,并基于MPI和MPI+OpenMP两种编程模型分别针对该算法最费时的部分提出相应的并行算法.实验结果表明,在处理规模达到43000亿的由稀疏矩阵表示的超大规模图时,基于线性代数表示的同辈压力图聚类算法在曙光超级计算机上取得了较高的性能表现,良好的可扩展性.其MPI实现在1024个核上获得了76.8%的并行效率;其MPI+OpenMP实现在2048个核上取得了46.4%的并行效率.
-
-
-
郭鹏;
袁良;
张云泉;
黄珊
- 《2017年全国高性能计算学术年会》
| 2017年
-
摘要:
Stencil计算是一种科学和工程应用中常见的循环模式,而分块技术是一种提高数据局部性和并行性的强大转换方法.与以往直接对整个迭代空间进行分块的分块技术不同,本文提出了一种新的两层密铺分块的并行算法.首先,利用不同分块密铺数据空间,其次,所有分块沿时间维度的扩展能密铺迭代空间.本文提出的算法有以下优点:(1)最大化并发执行,(2)无冗余计算,(3)简洁的循环条件,(4)适应Stencil不同的尺寸、形状、阶数和边界条件.实验结果表明,对于3d27p Stencil,非周期边界的性能比Pluto高12%,周期边界的比Pochoir最高提升40%.
-
-
Junji Wang;
王俊吉;
Chaoyan Zhu;
朱朝艳;
Jianjun Chen;
陈建军;
Peng Zheng;
郑澎;
Quan Xu;
徐权
- 《2017年全国高性能计算学术年会》
| 2017年
-
摘要:
本文基于OpenMP实现了一种基于空腔交叠互斥准则与无锁原子操作的Delaunay三角化增量插点细粒度并行算法.在串行算法的基础上,对点集引入Hilbert排序,使相邻点在几何上亦相邻.引入互斥机制——仅当各空腔无公共单元及公共相邻边时,才可同时插入,据Delaunay局部性准则可保证整个网格都具备Delaunay属性.每个单元用一个原子变量已标记该单元是否被占有,在计算Delaunay空腔时,各线程将试图写入该原子变量,但本竞争机制保证有且仅有一个线程能成功获得该单元的所有权,以保证算法的互斥性.在16核Intel(R)Xeon(R)CPU E5-2640v3@2.60GHz、64GiB内存的平台上的数值实验表明,对于107的点集,该算法在16核下加速比可达7.06倍.
-
-
-
王谦;
景敏卿;
刘恒;
史必佳
- 《第12届全国转子动力学学术讨论会》
| 2016年
-
摘要:
转子瞬态响应分析比临界转速求解、稳态响应分析算法复杂,计算时间长,瞬态响应算法的优化可以缩短计算时长、提高计算精度和计算效率.本文采用Riccati传递矩阵-Wilson-θ法进行转子系统瞬态响应分析,对其算法进行并行化处理以优化算法结构,缩短运算时间.最后通过单转子瞬态分析实例验证该算法的有效性.
-
-
-
Wu Lilei;
吴立垒;
Luo Li;
罗力;
Chen Rongliang;
陈荣亮;
Yan Zhengzheng;
闫争争;
Liao Ziju;
廖子菊;
Chi Lihua;
迟利华;
Liu Jie;
刘杰
- 《2017年全国高性能计算学术年会》
| 2017年
-
摘要:
Jacobi和Gauss-Seidel算法作为线性方程组的求解器,在并行计算领域具有广泛应用,而基于异构众核架构开发其细粒度并行性一直是挑战.最新Top500排名第一位的神威太湖之光超级计算机正是基于异构众核架构,针对这一现状,基于非结构网格提出了面向神威太湖之光超级计算机异构众核架构的块Gauss-Seidel/Jacobi算法,将其作为区域分解算法的子区域求解器.为充分利用神威太湖之光国产SW26010芯片中每个CPE拥有的高速LDM(Local Data Memory),以缓解通信瓶颈,设计了多行块通信打包、计算与通信重叠性能优化策略和忽略非关键元素的低通信复杂性数值优化方法.数值实验结果显示,块Gauss-Seidel/Jacobi算法具有良好的预处理效果,相较于串行Gauss-Seidel算法,预处理过程的加速比最高达到4.16倍.以1040核的测试数据为基准,在处理器核数达到33,280时,块Gauss-Seidel/Jacobi预条件算法的并行效率为61%.