首页> 中文期刊>高技术通讯 >基于龙芯3A2000处理器的高性能Goto BLAS库的实现

基于龙芯3A2000处理器的高性能Goto BLAS库的实现

     

摘要

用Linpack测试集测试了计算机系统浮点性能,测试用函数运算库为Goto BLAS库.该库对Linpach的测试结果有很大影响.为了提高Goto BLAS性能,观察了GotoBLAS库在龙芯3A2000处理器平台的性能表现,分析了测试软件的执行流程、数据的处理方法,根据处理器的结构特点,合理配置矩阵分块参数,优化核心循环的实现方案,同时采用软硬件数据预取技术及优化的内核TLB配置策略.在这些优化方法的共同作用下,仿真平台上核心函数的浮点部件效率超过90%.优化方案在本实验中取得了显著的效果.%Linpack was applied to evaluation of the performance of a computer system,and the Goto BLAS library was used as the function operation library.The performance of the library has a large impact on Linpack test results.To achieve its high performance,the study observed the performance expression of the Goto BLAS library on the Loongson 3 A2000 processor,and analyzed the testing software's execution flow and data processing methods,and then,according to the structural features of the processor,reasonably allocated the block matrix and optimized the scheme for implementation of the core loop in the function.Meanwhile,the data-fetching technologies of software and hardware,and the optimized TLB configuration schemes were adopted.With the combined effects of these optimizations,the efficiency of float point component on the simulation platform reached more than 90%,which means the optimization schemes achieved the significant results in this experiment.

著录项

  • 来源
    《高技术通讯》|2016年第10期|825-832|共8页
  • 作者

    张华亮; 黄启印; 吴少校;

  • 作者单位

    中国科学院计算技术研究所计算机体系结构国家重点实验室 北京100190;

    中国科学院大学 北京100049;

    龙芯中科技术有限公司 北京100190;

    中国科学院计算技术研究所计算机体系结构国家重点实验室 北京100190;

    中国科学院大学 北京100049;

    中国科学院计算技术研究所计算机体系结构国家重点实验室 北京100190;

    中国科学院大学 北京100049;

    龙芯中科技术有限公司 北京100190;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类
  • 关键词

    Goto BLAS; 性能优化; Linpack; 矩阵运算; 数据预取;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号