机译:GPU张量核心,用于快速算术减少
Univ Austral Chile Inst Informat Valdivia 5110566 Los Ros Chile;
Univ Austral Chile Inst Informat Valdivia 5110566 Los Ros Chile;
Univ Catolica Maule Fac Engn Sci Dept DCI Lab Technol Res Pattern Recognit LITRP Talca 3605 Chile;
Univ Catolica Maule Fac Engn Sci Dept DCI Lab Technol Res Pattern Recognit LITRP Talca 3605 Chile;
Univ Austral Chile Inst Informat Valdivia 5110566 Los Ros Chile;
Arithmetic reduction; GPU computing; tensor cores; matrix multiply accumulate; parallel reduction;
机译:通过TITE GPU的比特 - 张量芯加速二值化神经网络
机译:在许多核GPU和多核CPU上进行并行3D快速小波变换
机译:GPU上的缓存感知核心外张量分解
机译:利用GPU Tensor内核实现快速FP16算法,以加快混合精度迭代优化求解器的速度
机译:静态分析,可在GPU上进行高效的仿射算法。
机译:BROCCOLI:用于在多核CPU和GPU上进行快速fMRI分析的软件
机译:GPU张量核心,用于快速算术减少