首页> 中文学位 >面向多核众核平台的深度学习推理加速技术研究

【6h】

面向多核众核平台的深度学习推理加速技术研究

代理获取

页面导航

目录
著录项
相似文献
相关主题

目录

声明

第一章绪论

1.1 研究背景

1.2 研究现状

1.2.1 x86平台深度学习加速现状

1.2.2 GPGPU平台深度学习加速现状

1.2.3 ASIC平台深度学习加速现状

1.2.4 ARM平台深度学习加速现状

1.2.5 VLIW平台深度学习加速现状

1.3 研究内容

1.3.1 飞腾平台无框架深度学习应用的推理优化

1.3.2 飞腾平台带框架深度学习应用的推理优化

1.3.3 VLIW多核平台深度学习推理优化技术

1.4 论文结构

第二章面向飞腾平台无框架深度学习应用的推理优化

2.1 飞腾平台硬件结构及并行资源

2.1.1 ARMv8指令集架构

2.1.2 飞腾平台基本硬件结构

2.1.3 飞腾平台可用并行资源及利用方法

2.2 飞腾平台无框架应用推理优化技术

2.2.1 飞腾平台高性能计算库评估

2.2.2 飞腾平台GEMM计算库性能优化

2.2.3 基于NEON组件的数据并行加速

2.2.4 NUMA架构下的混合粒度并行技术

2.3 基于优化技术的应用加速

2.3.1 基于RNNs-LSTM的语法评估应用

2.3.2 基于混淆树的图像分类应用

2.4 本章小结

第三章面向飞腾平台带框架深度学习应用的推理优化

3.1 Tensorflow架构分析

3.2 飞腾平台Tensorflow框架应用推理优化技术

3.2.1 Tensorflow底层计算库适配

3.2.2 基于框架的应用开启混合粒度并行的方法

3.3 基于优化技术的应用加速

3.3.1 基于MLP的手写字识别应用

3.3.2 基于VGG的骨关节关键点预测应用

3.4 本章小结

第四章面向多核VLIW架构的深度学习推理优化

4.1 DSP平台软硬资源概述

4.1.1 DSP硬件结构及并行资源

4.1.2 DSP平台高性能计算库

4.2 DSP平台深度学习推理优化技术

4.2.1 基于DDR3缓冲使能的访存优化

4.2.2 基于二级存储的访存加速技术

4.2.3 DSP多核细粒度并行

4.2.4 近似函数替换

4.3 基于DSP平台优化技术的LSTM应用加速

4.3.1 应用结构及特征分析

4.3.2 实验方法及结果分析

4.4 本章小结

第五章总结与展望

5.1 工作总结

5.2 工作展望

致谢

参考文献

作者在学期间取得的学术成果

展开▼

著录项

作者
朱科潜;
展开▼
作者单位

国防科学技术大学国防科技大学;

展开▼
授予单位国防科学技术大学国防科技大学;
学科软件工程
授予学位硕士
导师姓名姜晶菲;
年度 2019
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词

相似文献

中文文献
外文文献
专利

1. 多核/众核平台上推荐算法的实现与性能评估 [J] . 陈静 ,方建滨 ,唐滔 . 计算机科学 . 2017 ,第010期
2. 面向深度学习推理的矩阵乘法加速器设计 [J] . 冉德成 ,吴东 ,钱磊 . 计算机工程 . 2019 ,第010期
3. 面向众核GPU加速系统的网络编码并行化及优化 [J] . 唐绍华 . 计算机工程与应用 . 2014 ,第021期
4. 高通量众核并行模拟加速技术研究 [J] . 方国庆 ,李文明 ,余洋 . 计算机工程 . 2017 ,第004期
5. CC $:一种面向分布式众核平台的并行编程语言 [J] . 吴峻峰 ,许跃生 ,张永东 . 计算机科学 . 2013 ,第003期
6. 多核/众核平台上推荐算法实现与性能评估 [C] . Chen Jing ,陈静 ,Fang Jianbin . 2016年全国高性能计算学术年会 . 2016
7. 面向多核/众核平台的猜测并行关键技术研究 [A] . 徐帆 . 2014

代理获取

客服邮箱：kefu@zhangqiaokeyan.com

京公网安备：11010802029741号 ICP备案号：京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有

客服微信
服务号