机译:用于GPU上非常小的矩阵大小的批量三角形致密线性代数粒
8716 Barbee Lane Knoxville TN 37923 USA;
4700 King Alxiullah Univ Sci & Technol Extreme Comp Res Ctr 1 Level 0 Room 0119 Thuwal 239556900 Saudi Arabia;
4700 King Alxiullah Univ Sci & Technol Extreme Comp Res Ctr 1 Level 0 Room 0119 Thuwal 239556900 Saudi Arabia;
KBLAS; recursive formulation; batched BLAS kernels; dense linear algebra; hardware accelerators;
机译:适用于GPU上非常小的矩阵大小的批处理三角密集线性代数核
机译:使用GPU硬件加速器自动调谐数值密集线性代数以进行批处理计算
机译:GPU上准确和混合精密线性代数粒细胞的性能和能耗
机译:加速GPU内核为密集的线性代数
机译:用于内核矩阵压缩的随机数值线性代数
机译:使用GPU的三角形表面的高性能简化
机译:适用于GPU上非常小的矩阵大小的批处理三角密集线性代数核