首页> 外文OA文献 >An Optimized Sparse Approximate Matrix Multiply for Matrices with Decay
【2h】

An Optimized Sparse Approximate Matrix Multiply for Matrices with Decay

机译:优化的稀疏近似矩阵,矩阵与腐烂的矩阵

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

We present an optimized single-precision implementation of the SparseApproximate Matrix Multiply (SpAMM{}) [M. Challacombe and N. Bock, arXiv {f1011.3534} (2010)], a fast algorithm for matrix-matrix multiplication formatrices with decay that achieves an $mathcal{O} (n log n)$ computationalcomplexity with respect to matrix dimension $n$. We find that the max norm ofthe error achieved with a SpAMM{} tolerance below $2 imes 10^{-8}$ is lowerthan that of the single-precision {t SGEMM} for dense quantum chemicalmatrices, while outperforming {t SGEMM} with a cross-over already for smallmatrices ($n sim 1000$). Relative to naive implementations of SpAMM{} usingIntel's Math Kernel Library ({t MKL}) or AMD's Core Math Library ({tACML}), our optimized version is found to be significantly faster. Detailedperformance comparisons are made for quantum chemical matrices with differentlystructured sub-blocks. Finally, we discuss the potential of improved hardwareprefetch to yield 2--3x speedups.
机译:我们提出了稀疏近似矩阵乘法( SpAMM {})[M.]的优化单精度实现。 Challacombe和N. Bock,arXiv { bf1011.3534}(2010)],一种具有衰减的矩阵矩阵乘法格式的快速算法,相对于矩阵,它可以实现$ mathcal {O}(n log n)$的计算复杂度维度$ n $。我们发现,对于 SpAMM {}容差低于$ 2 times 10 ^ {-8} $所实现的错误的最大范数低于单精度{ tt SGEMM}的致密量子化学矩阵的误差的最大范数,而性能优于{ tt SGEMM},并且已经可以用于小矩阵($ n sim 1000 $)。相对于使用英特尔数学核心库({ tt MKL})或AMD核心数学库({ ttACML})的 SpAMM {}的幼稚实现,我们的优化版本明显更快。对具有不同结构子块的量子化学矩阵进行了详细的性能比较。最后,我们讨论了改进硬件预取以产生2--3倍加速的潜力。

著录项

  • 作者

    Nicolas Bock; Matt Challacombe;

  • 作者单位
  • 年度 2013
  • 总页数
  • 原文格式 PDF
  • 正文语种 {"code":"en","name":"english","id":9}
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号