声明
摘要
表格索引
插图索引
算法索引
第一章 绪论
1.1 研究背景
1.1.1 龙芯3B1500
1.1.2 龙芯3B2000
1.1.3 BLAS库
1.1.4 FFTW库
1.2 国内外研究现状
1.2.1 程序性能优化
1.2.2 BLAS函数库优化
1.2.3 FFTW函数库优化
1.2.4 泊松方程求解优化
1.3 本文研究内容
1.4 本文组织结构
第二章 程序优化方法
2.1 并行计算优化
2.2 编译器优化
2.3 热点代码优化
2.3.1 热点代码分析方法
2.3.2 热点函数优化方法
2.4 异构计算
2.5 本章小结
第三章 基于龙芯3B1500的BLAS库优化
3.1 BLAS函数库简介
3.2 异步计算访存优化方法
3.2.1 单线程函数优化
3.2.2 节点内多核并行化
3.2.3 GEMM函数的性能评测
3.3 TRSM函数的优化
3.3.1 优化方法
3.3.2 dTRSM函数性能评测
3.4 TRMM函数的优化
3.4.1 优化方法
3.4.2 dTRMM函数性能评测
3.5 SYMM和HEMM函数的优化
3.5.1 优化方法
3.6 BLAS整体优化效果
3.6.1 单纯的函数测试
3.6.2 LINPACK测试
3.7 本章小结
第四章 基于龙芯3B1500的FFTW函数库优化
4.1 FFTW函数库简介
4.2 FFTW库的算法
4.2.1 Cooler-Turkey算法
4.2.2 其他FFT算法
4.3 多层数据划分优化方法
4.3.1 数据分块
4.3.2 多级预取优化访存
4.3.3 特殊指令的核心计算优化
4.3.4 优化参数分析
4.3.5 性能评估和优化效果
4.4 核心函数集的优化
4.4.1 复数输入的核心函数
4.4.2 实数输入的核心函数
4.4.3 优化方法
4.4.4 优化效果和性能分析
4.5 本章小结
第五章 基于CC-NUMA架构的并行计算框架优化
5.1 CC-NUMA简介
5.2 并行计算框架HPFCA
5.2.1 PCAM并行计算框架
5.2.2 数据重新部署
5.2.3 节点内多核并行
5.2.4 HPFCA流程图
5.3 龙芯3B双路上的并行算法
5.3.1 dGEMM的并行算法
5.3.2 基-2FFT算法的并行实现
5.4 实验评测
5.5 本章小结
第六章 基于异构平台的三维泊松方程求解优化
6.1 背景介绍
6.2 异构平台下计算资源的负载均衡
6.2.1 泊松方程求解
6.2.2 多GPU上的算法实现
6.2.3 负载均衡
6.3 实验结果和分析
6.3.1 实验环境与参数
6.3.2 实验结果与分析
6.4 本章小结
第七章 总结与展望
7.1 本文主要工作和贡献
7.2 未来工作展望
参考文献
致谢
在读期间发表的学术论文与取得的研究成果