基于GPU的BLAS库的设计和实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

BLAS(Basic Linear Algebra Subprograms)定义了一组基本的矩阵和向量的操作，包括各种矩阵乘法和矩阵向量乘法，在许多领域有广泛的应用。现在的GPU已经发展为一种多核，多线程，具有杰出的计算能力和很高的存储器带宽，可编程的处理器。GPU可以用来加速许多具有数据并行特征的应用。本文在BLAS通用版本基础上，分析GPU体系结构特点和BLAS函数特征，使用CUDA在GPU上高效实现BLAS库的一些核心操作。
　　本文首先介绍了BLAS函数标准，重点介绍了BLAS库中应用最多的是BLAS2和BLAS3提供的函数，特别是BLAS2中的GEMV和BLAS3中的GeneralMartrix Multiply(GEMM)，即通用矩阵相乘。介绍了GPU体系结构特点以及CUDA，包括CUDA的体系结构和常用的优化方法。
　　然后，使用CUDA在GPU上设计和实现了三级BLAS库的核心函数GEMM(通用矩阵相乘)。在实现通用矩阵相乘时，需要考虑两种情况：一种是数据已经拷贝到GPU的显存中的情况。在Geforce GTX260上，在数据已经拷贝到显存的前提下，算法峰值是65GFLOPS。而GTX260的双精度峰值是67.068GFLOPS，因此双精度的实现效率达到了97％。另一种是数据没有拷贝到显存中的情况。在大规模矩阵乘法的计算中，数据不能够一次全部的拷贝到显存中。通过数据调度，本文的算法拷贝数据的时间不超过总时间的10％。
　　最后，使用CUDA在GPU上设计和实现了二级BLAS库的核心函数GEMV，即矩阵向量相乘。并且对转置和非转置的双精度版本进行了测试，实验结果表明，本文实现的转置形式在大规模输入的情况下比CUBLAS的实现要快上50％，而非转置形式的性能跟CUBLAS相当。
　　本文中使用的方法对GPU上的高性能BLAS实现有重要的参考意义。

著录项

作者
梁娟娟;
展开▼
作者单位

中国科学技术大学;

展开▼
授予单位中国科学技术大学;
学科计算机系统结构
授予学位硕士
导师姓名顾乃杰;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
计算机系统; BLAS库; 矩阵乘法; 矩阵向量乘法;

相似文献

中文文献
外文文献
专利

1. 基于龙芯3A2000处理器的高性能Goto BLAS库的实现 [J] . 张华亮 ,黄启印 ,吴少校 . 高技术通讯 . 2016,第010期
2. 基于Pentium Pro的高性能BLAS的设计与实现 [J] . 李忠泽 ,陈瑾 . 北京航空航天大学学报 . 1998,第004期
3. 基于Pentium Pro的高性能BLAS的设计与实现 [J] . 李忠泽 . 北京航空航天大学学报 . 1998,第004期
4. 基于本体的专题域知识库系统设计与实现——以张謇研究专题知识库系统实现为例 [J] . 钱智勇 . 情报理论与实践 . 2006,第004期
5. 基于GPU的遥感图像几何校正算法设计与实现 [J] . 吴敌 ,汪红强 ,邹同元 . 信息与电脑 . 2020,第003期
6. 基于Matrix的二级BLAS库的设计与实现 [C] . 张军阳 ,刘仲 . 第十七届计算机工程与工艺年会暨第三届微处理器技术论坛 . 2013
7. 面向多核向量处理器BLAS库的设计与实现 [A] . 张军阳 . 2014

基于GPU的BLAS库的设计和实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅