首页> 中文会议>2014全国高性能计算学术年会 >细粒度任务并行GPU通用矩阵乘

细粒度任务并行GPU通用矩阵乘

页面导航

摘要
著录项
相似文献
相关主题

摘要

稠密线性代数运算对模式识别和生物信息等许多实际应用至关重要,而通用矩阵乘(GEMM)在稠密线性代数运算中占有基础地位.在cuBLAS与MAGMA中,GEMM被实现为若干kernel函数,对大规模GEMM计算能够取得达到很高的性能.然而,现有实现对批量的小规模GEMM计算性能则较为有限.而且,现有实现也不能在多个具有不同性能的GPU之间自动扩展并达到负载均衡.本文提出任务并行式GEMM(TPGEMM),用细粒度任务并行的方式实现批量矩阵乘和多GPU矩阵乘.一个或多个GEMM的计算能够被拆分为多个任务,动态地调度到一个或多个GPU上.TPGEMM避免了为批量矩阵乘启动多个kernel函数的开销,对批量矩阵乘能够取得显著高于cuBLAS与MAGMA的性能.在低开销细粒度任务调度的基础上,TPGEMM支持单个GEMM计算在多个GPU间的自动并行,在一台具有4个不同性能GPU的工作站上取得了接近100％的扩展效率.

著录项

来源
《2014全国高性能计算学术年会》|2014年|325-333|共9页
会议地点广州
作者
ZHANG Shuai; 张帅; LI Tao; 李涛; WANG Yifeng; 王艺峰; JIAO Xiaofan; 焦晓帆; YANG Yulu; 杨愚鲁;
展开▼
作者单位

中国计算机学会;

展开▼
会议组织
正文语种
原文格式 PDF
中图分类线性代数的计算方法;
关键词
稠密线性代数运算; 通用矩阵乘; 并行计算; 图形处理器; 负载均衡;

相似文献

中文文献
外文文献
专利

1. 细粒度任务并行GPU通用矩阵乘 [J] . 张帅 ,李涛 ,王艺峰 . 计算机工程与科学 . 2015,第005期
2. 基于GPU加速的细粒度并行人工蜂群算法 [J] . 王文亮 ,王智广 ,刘伟峰 . 微电子学与计算机 . 2013,第3期
3. 一种基于GPU加速细粒度并行遗传算法的实现方法 [J] . 李建明 ,迟忠先 ,万单领 . 控制与决策 . 2008,第6期
4. 一种基于GPU加速的细粒度并行粒子群算法 [J] . 李建明 ,万单领 ,迟忠先 . 哈尔滨工业大学学报 . 2006,第012期
5. 相似驱动的细粒度并行任务重构算法 [J] . 郝水侠 ,曾国荪 ,马小信 . 计算机科学 . 2013,第009期
6. 基于GPU加速和非负矩阵分解的并行协同过滤推荐算法 [C] . KANG Linyao ,康林瑶 ,TANG Bing . 2018年全国高性能计算学术年会 . 2018
7. 基于GPU加速的细粒度模型并行免疫算法研究 [A] . 张立花 . 2009

细粒度任务并行GPU通用矩阵乘

摘要

著录项

相似文献

相关主题

期刊订阅