首页> 中国专利> 利用AMD GPU汇编指令加速的单精度矩阵乘优化方法和系统

利用AMD GPU汇编指令加速的单精度矩阵乘优化方法和系统

页面导航

摘要
著录项
相似文献

摘要

本发明涉及一种利用AMD GPU汇编指令加速的单精度矩阵乘优化方法和系统，包括：根据tile_length对原始矩阵进行分块，每个block处理〈tile_length,tile_length〉维度的输出矩阵C；在共享内存上创建4个暂存空间tileA，tileB，tileA’和tileB’；从GPU上的一级存储上的矩阵A读取tileA大小的矩阵到tileA，从矩阵B读取tileB大小的矩阵到tileB；每次从tileA加载一列到寄存器，从tileB加载一行到寄存器，做矩阵乘运算，读取该寄存器内容，并运用乘加融合指令做矩阵乘运算，在矩阵乘运算的同时，从该一级存储分别读取下一个tileA和tileB的一行到tileA’和tileB’；做完tileA和tileB的矩阵乘以后，将tileA和tileA’地址互换，将tileB和tileB’地址互换。

著录项

公开/公告号CN110147248B

专利类型发明专利
公开/公告日2021-06-29

原文格式PDF
申请/专利权人中国科学院计算技术研究所;
展开▼

申请/专利号CN201910317936.X
发明设计人谭光明;郝海波;于献智;王朝尉;
展开▼

申请日2019-04-19
分类号G06F9/30(20060101);G06F9/38(20060101);
代理机构11006 北京律诚同业知识产权代理有限公司;
代理人祁建国;梁挥
地址 100080 北京市海淀区中关村科学院南路6号
入库时间 2022-08-23 12:02:44

相似文献

专利
中文文献
外文文献

1. 利用AMD GPU汇编指令加速的单精度矩阵乘优化方法和系统 [P] . 中国专利： CN110147248B . 2021.06.29
2. 利用AMD GPU汇编指令加速的单精度矩阵乘优化方法和系统 [P] . 中国专利： CN110147248A . 2019-08-20
3. Making use of be inherited algorithm and the storage unit video system optimization method and the device which accelerate [P] . 日本专利： JP2005523608A . 2005-08-04

机译：利用继承算法及存储单元视频系统优化方法及加速装置
4. ACCELERATION OF THE MATRIX MULTIPLICATION OF THIN-FILLED MATRICES BY USING COLUMN FOLDING AND COMPRESSION [P] . 德国专利： DE102019109847A1 . 2019-12-24

机译：利用列折叠和压缩来加速薄矩阵的矩阵乘法
5. Method and System for Accelerating the Computation of Adaptive Weights Using Matrix Inverse Calculations [P] . 美国专利： US2008297416A1 . 2008-12-04

机译：利用矩阵逆计算加速自适应权重计算的方法和系统

获取专利

客服邮箱：kefu@zhangqiaokeyan.com

京公网安备：11010802029741号 ICP备案号：京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有

客服微信
服务号