首页> 中文学位 >面向多核众核平台的深度学习推理加速技术研究
【6h】

面向多核众核平台的深度学习推理加速技术研究

代理获取

目录

声明

第一章 绪论

1.1 研究背景

1.2 研究现状

1.2.1 x86平台深度学习加速现状

1.2.2 GPGPU平台深度学习加速现状

1.2.3 ASIC平台深度学习加速现状

1.2.4 ARM平台深度学习加速现状

1.2.5 VLIW平台深度学习加速现状

1.3 研究内容

1.3.1 飞腾平台无框架深度学习应用的推理优化

1.3.2 飞腾平台带框架深度学习应用的推理优化

1.3.3 VLIW多核平台深度学习推理优化技术

1.4 论文结构

第二章 面向飞腾平台无框架深度学习应用的推理优化

2.1 飞腾平台硬件结构及并行资源

2.1.1 ARMv8指令集架构

2.1.2 飞腾平台基本硬件结构

2.1.3 飞腾平台可用并行资源及利用方法

2.2 飞腾平台无框架应用推理优化技术

2.2.1 飞腾平台高性能计算库评估

2.2.2 飞腾平台GEMM计算库性能优化

2.2.3 基于NEON组件的数据并行加速

2.2.4 NUMA架构下的混合粒度并行技术

2.3 基于优化技术的应用加速

2.3.1 基于RNNs-LSTM的语法评估应用

2.3.2 基于混淆树的图像分类应用

2.4 本章小结

第三章 面向飞腾平台带框架深度学习应用的推理优化

3.1 Tensorflow架构分析

3.2 飞腾平台Tensorflow框架应用推理优化技术

3.2.1 Tensorflow底层计算库适配

3.2.2 基于框架的应用开启混合粒度并行的方法

3.3 基于优化技术的应用加速

3.3.1 基于MLP的手写字识别应用

3.3.2 基于VGG的骨关节关键点预测应用

3.4 本章小结

第四章 面向多核VLIW架构的深度学习推理优化

4.1 DSP平台软硬资源概述

4.1.1 DSP硬件结构及并行资源

4.1.2 DSP平台高性能计算库

4.2 DSP平台深度学习推理优化技术

4.2.1 基于DDR3缓冲使能的访存优化

4.2.2 基于二级存储的访存加速技术

4.2.3 DSP多核细粒度并行

4.2.4 近似函数替换

4.3 基于DSP平台优化技术的LSTM应用加速

4.3.1 应用结构及特征分析

4.3.2 实验方法及结果分析

4.4 本章小结

第五章 总结与展望

5.1 工作总结

5.2 工作展望

致谢

参考文献

作者在学期间取得的学术成果

展开▼

著录项

  • 作者

    朱科潜;

  • 作者单位

    国防科学技术大学国防科技大学;

  • 授予单位 国防科学技术大学国防科技大学;
  • 学科 软件工程
  • 授予学位 硕士
  • 导师姓名 姜晶菲;
  • 年度 2019
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类
  • 关键词

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号