基于飞腾2000+的BLAS3函数优化与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来随着国家对国家信息安全和产业经济安全的愈发重视，芯片国产化成为当务之急。与此同时ARM体系结构在迅速发展。基于ARM体系结构的处理器具有良好的性能与能效。基于ARM体系结构搭建高性能计算系统成为可能。随着深度学习的快速发展，基础线性代数运算不仅仅在科学计算和工程计算领域十分重要，也已成为机器学习、自然语言处理、计算机视觉等领域的底层数学计算支撑。BLAS(Basic Linear Basic Linear Algebra Subprograms)基础线性代数程序集是一系列基本线性代数运算函数的接口标准，通过使用该接口来规范发布基础线性代数操作的数值库。国产自主研发的飞腾2000+处理器基于ARMv8架构。作为一款新型处理器，飞腾2000+存在着支持软件少、生态系统薄弱等问题。本文基于国产自主研发的飞腾2000+处理器设计并实现了高性能的整数GEMM(General Matrix Multiply)，并基于飞腾2000+处理器面向人工智能领域的计算特征对单精度浮点矩阵乘(SGEMM)进行优化。本文主要的工作和研究成果包括以下几个方面：　　(1)设计和实现了基于飞腾2000+的整数矩阵乘法。现有的BLAS库中没有整数矩阵乘法(GEMM)，也没有基于飞腾平台的整数GEMM实现。但整数GEMM在CNN(卷积神经网络)中有着广泛的应用且有着重要的作用，由于CNN有着对噪声不敏感的特点，使用整数GEMM能有效的通过减少访存和计算量来提高效率。本文基于GotoBLAS的分块计算与分块存储思想，针对飞腾2000+处理器的体系结构和硬件资源采用ARMv864位访存指令、缓存预取指令及NEON混合向量乘加指令等手工编写内核汇编代码，以最大化计算访存比为目标来确定寄存器使用策略。最终实现高效整数矩阵乘法。　　(2)实现基于飞腾2000+处理器面向人工智能计算特征的单精度浮点矩阵乘法(SGEMM)优化。本文基于OpenBLAS针对飞腾2000+处理器的多级存储结构，进行访存优化。针对人工智能领域中对不规则小矩阵的计算需求，对循环过程中的数据重排操作进行手工汇编编写，并基于飞腾2000+处理器的硬件资源进行寄存器的重新分配，手工汇编编写新的计算内核。优化后的SGEMM相比于OpenBLAS的SGEMM对于不规则小矩阵性能有显著提升。对于大型方阵，性能没有明显下降。

著录项

作者
刘彦;
展开▼
作者单位

湖南大学;

展开▼
授予单位湖南大学;
学科计算机技术
授予学位硕士
导师姓名全哲,吴炜;
年度 2020
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
飞腾2000+处理器,BLAS函数,整数矩阵乘法;

相似文献

中文文献
外文文献
专利

1. 基于双路飞腾S2500存储阵列系统实现 [J] . 周海兵 . 中国宽带 . 2021,第002期
2. 基于双路飞腾S2500存储阵列系统实现 [J] . 周海兵 . 中国宽带 . 2021,第002期
3. 基于SPI总线的飞腾FT2000/4与FPGA通信设计与实现 [J] . 隽鹏辉 ,封安 ,王宇 . 电脑编程技巧与维护 . 2021,第010期
4. 基于飞腾平台的GPU图形加速驱动设计与实现 [J] . 李荣振 ,吴庆波 ,邵立松 . 计算机工程与应用 . 2014,第005期
5. 基于飞腾平台TOE协议栈的设计与实现 [J] . 张志宏 ,吴庆波 ,邵立松 . 计算机技术与发展 . 2014,第007期
6. 基于飞腾多核DSP的舰船识别硬件设计与算法实现 [C] . 曾忠 ,扈啸 . 全国抗恶劣环境计算机第二十五届学术年会 . 2015
7. 面向多核DSP的高性能并行BLAS3的设计与实现 [A] . 陈磊 . 2013

基于飞腾2000+的BLAS3函数优化与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅