声明
第1章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 国内研究现状
1.2.2 国外研究现状
1.3 论文的主要研究内容
1.3.1 SGEMM单核优化与实现
1.3.2 整数GEMM单核设计与实现
1.4 论文的组织结构
第2章 BLAS库和整数矩阵乘及飞腾2000+简介
2.1 BLAS库简介
2.2 飞腾2000+简介
2.2.1 飞腾2000+体系结构简介
2.2.2 飞腾2000+寄存器简介
2.2.3 SIMD简介
2.3 整数矩阵乘法
2.4 本章小结
第3章 SGEMM单核优化与实现
3.1 SGEMM矩阵分块
3.2 SGEMM核心循环算法
3.3 SGEMM寄存器使用策略
3.4 SGEMM分块策略
3.5 SGEMM数据重排
3.6 SGEMM实例
3.7 本章小结
第4章 整数GEMM单核设计与实现
4.1 整数GEMM总体设计
4.1.1 整数矩阵乘法分块详细分析
4.1.2 整数矩阵数据重排
4.1.3 整数矩阵乘法数据重用
4.2 整数GEMM分块参数选择
4.2.1 micro kernel中mr和nr的选择
4.2.2 micro kernel中kc和mc及nc的选择
4.3 fastblas sigemm设计
4.3.1 fastblas sigemm内核寄存器分配
4.3.2 缓存分配
4.4 fastblas chgemm设计
4.4.1 fastblas chgemm内核寄存器分配
4.4.2 fastblas chgemm分块参数选择
4.4.3 fastblas chgemm数据重排
4.5 fastblas schgemm设计
4.5.1 schgemm内核寄存器分配
4.5.2 fastblas schgemm分块参数选择
4.5.3 fastblas schgemm数据重排
4.6 整数GEMM实例
4.6.1 sigemm实例
4.6.2 chgemm计算实例
4.6.3 schgemm计算实例
4.7 本章总结
第5章 实验
5.1 飞腾2000+浮点峰值计算
5.2 sgemm性能对比
5.3 sigemm性能对比
5.4 chgemm性能对比
5.5 schgemm性能对比
5.6 本章总结
结论
参考文献
致谢
附录A 发表论文和参加科研情况说明
湖南大学;