文摘
英文文摘
论文说明:图表目录
声明
第1章 绪论
1.1 BLAS库
1.1.1 BLAS的构成
1.1.2 BLAS函数介绍
1.1.3 BLAS主要参数
1.1.4 BLAS优化现状
1.1.5 CUBLAS介绍
1.2 GPU的介绍
1.2.1 GPU发展简介
1.2.2 GPU与CPU的差异
1.2.3 GPU硬件实现
1.2.4 GPU的着色器模型
1.3本文的研究内容
1.4本文结构
第2章 CUDA介绍
2.1 CUDA编程模型
2.1.1 主机和设备
2.1.2 内核函数
2.1.3线程层次结构
2.2存储器层次结构
2.3 CUDA软件栈
2.4执行模型
2.5 CUDA程序
2.5.1 程序框架
2.5.2 CUDA C语言
2.5.3 nvcc编译器
2.5.4通信机制
2.6 小结
第3章 GPU上矩阵乘法的设计与实现
3.1 矩阵乘法回顾
3.2 BLAS库中的普通矩阵乘法
3.3 用CUDA在GPU上实现矩阵乘法的分析
3.3.1矩阵乘法分块分析
3.3.2 CUDA上的矩阵乘法分块分析
3.4 CUDA上矩阵乘法的设计与实现
3.4.1 普通实现
3.4.2 优化实现
3.4.3 实验结果
3.4.4 大规模矩阵乘法的算法设计
3.5 小结
第4章 矩阵向量乘法的设计与实现
4.1 矩阵向量乘法概述
4.2 矩阵向量乘法的分析和实现
4.2.1 非转置形式
4.2.2转置形式
4.3实验结果和分析
4.3.1 参数确定
4.3.2性能分析
4.3.3性能测试
4.4小结
第5章 总结和展望
5.1 本文总结
5.2存在问题和研究展望
参考文献
致谢
在读期间发表的学术论文与取得的研究成果