Out of order; Deep learning; Tensors; Convolution; Computational modeling; Pipelines; Bandwidth;
机译:多核CPU,GPU和加速器上的张量凹陷的新算法使CCSD和EOM-CCSD计算能够在单个计算节点上具有超过1000个基础函数的计算
机译:多核CPU中SSE和AYX指令的性能分析以及基于FDTD方案的GPU计算的固体和流体振动问题
机译:在志愿者计算环境中使用多核CPU和GPGPU进行高性能物理模拟
机译:SAVE:稀疏感知矢量引擎,用于在CPU上加速DNN训练和推理
机译:用于大规模机器学习的异构CPU-FPGA平台上高效且可伸缩的平行随机梯度下降
机译:具有多核CPUGPU和MIC的系统上的应用程序性能分析和高效执行:以显微镜图像分析为例
机译:多核CpU中的ssE和aVX指令的性能分析以及针对固体和流体振动问题的FDTD方案的GpU计算