机译:混合精度块融合乘法添加:错误分析和应用于GPU张量核心
机译:带多个GPU的多核CPU混合精度胆小QR分解及其案例研究
机译:高效的多精度浮点乘加融合单元
机译:利用GPU Tensor内核实现快速FP16算法,以加快混合精度迭代优化求解器的速度
机译:通过子张量冲击图和应用于数据和用户焦点的动态性的基于块的张量分解的优化
机译:具有多核CPUGPU和MIC的系统上的应用程序性能分析和高效执行:以显微镜图像分析为例
机译:利用GPU张量核心用于快速FP16算术,加速混合精密迭代细化求解器