机译:适用于GPU上非常小的矩阵大小的批处理三角密集线性代数核
8716 Barbee Lane, Knoxville, TN 37923 USA;
4700 King Alxiullah Univ Sci & Technol, Extreme Comp Res Ctr, 1 Level 0,Room 0119, Thuwal 239556900, Saudi Arabia;
4700 King Alxiullah Univ Sci & Technol, Extreme Comp Res Ctr, 1 Level 0,Room 0119, Thuwal 239556900, Saudi Arabia;
KBLAS; recursive formulation; batched BLAS kernels; dense linear algebra; hardware accelerators;
机译:用于GPU上非常小的矩阵大小的批量三角形致密线性代数粒
机译:使用GPU硬件加速器自动调谐数值密集线性代数以进行批处理计算
机译:GPU上准确和混合精密线性代数粒细胞的性能和能耗
机译:加速GPU内核为密集的线性代数
机译:用于内核矩阵压缩的随机数值线性代数
机译:使用GPU的三角形表面的高性能简化
机译:适用于GPU上非常小的矩阵大小的批处理三角密集线性代数核