首页> 中文学位 >基于FPGA的深度学习异构计算系统设计与研究
【6h】

基于FPGA的深度学习异构计算系统设计与研究

代理获取

目录

声明

第 1 章 绪论

1.1研究背景及意义

1.2国内外发展和研究现状

1.3论文主要研究内容及结构安排

第 2 章 深度学习与异构计算理论基础

2.1深度学习简介

2.1.1卷积神经网络

2.1.2池化

2.1.3激活函数

2.1.4全连接

2.1.5卷积神经网络经典网络模型

2.2异构计算

2.3高层次综合工具

2.3.1 OpenCL

2.3.2 Vivado HLS

2.4本章小结

第 3 章 神经网络在硬件上的实现

3.1.1 OpenCL

3.1.2 Xilinx ZYNQ

3.2存储访问优化

3.2.1共享内存的访问优化

3.2.2使用恒定高速缓存

3.2.3将数据预加载到本地内存

3.2.4传输带宽优化

3.2.5直接内存存取

3.3内核设计优化

3.3.1流水线设计

3.3.2去除循环依赖性

3.3.3循环展开

3.3.4减少代码复杂度

3.4面向硬件的结构优化

3.7本章小结

第 4 章 基于 OpenCL 的神经网络硬件加速器设计

4.1硬件平台搭建

4.1.1硬件平台介绍

4.1.2开发环境的搭建

4.2硬件加速器设计

4.2.1OpenCL主机(host)程序开发

4.2.2内核编写

4.3性能与分析

4.4本章小结

第 5 章 实验结果与分析

5.1实验平台搭建

5.2实验与方法

5.2.1 选用网络介绍

5.2.2硬件框架及内核设计

5.2.3执行步骤

5.2.4理论模型搭建

5.3性能与分析

5.4本章小结

第 6 章 总结与展望

参考文献

附录 攻读硕士期间发表的论文和专利

致 谢

展开▼

摘要

近年来,深度学习在行业中的各个领域得到了广泛的应用,人工智能技术的进步大大推动了计算机视觉和语音识别等技术的发展。深度学习的研究与发展离不开强大计算能力的支撑,如何满足日益增加的算力需求成了当前研究的热门问题,异构计算以其优异的性能和灵活的结构成为提高计算能力的主流方向。然而,针对复杂的神经网络,要进行大量数据的吞吐运算,从算法到0硬件结构都需要大量的优化。  高性能低功耗的FPGA平台解决了需要高度并行硬件结构的问题,本文分别基于OpenCL与ZYNQ异构计算框架,对比分析了片内异构与片间异构计算的特点,提出了一种基于FPGA的异构计算优化与实现方法。在该方法中,需要将计算任务划分并将相同操作的代码段分配给同一个子任务,根据子任务的要求,在FPGA中开发了一个可复用、可配置的加速内核,使其具有较高的复用率和灵活性。高度并行化的内核设计挖掘硬件的计算能力,通过内核间的流水线设计增加系统运算吞吐量。此外,通过优化内存访问和接口通信,提高了内核的性能和能耗表现。与传统的异构计算平台相比,它拥有灵活的结构与出色的能耗比,在不影响分类精度的情况下,可用于小型的嵌入式设备。  本文分别在DE5-NetFPGADevelopmentKit和ZynqXC7z035ffg676开发板上验证该实现方法。结合硬件资源、带宽与功耗等参数搭建理论模型,由此得出神经网络在设备上的峰值浮点运算速度。基于该方法的卷积神经网络的实验结果表明,识别图像只需1.1ms,功率为2.5W,与使用相同功耗的ARM的运行效率相比,基于异构平台的卷积运算速度快46.8倍。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号