首页> 中文学位 >深度学习中的卷积神经网络硬件加速系统设计研究
【6h】

深度学习中的卷积神经网络硬件加速系统设计研究

代理获取

目录

第一章 绪论

1.1 课题研究背景及意义

1.2 国内外研究现状

1.3 本文主要工作

1.4 论文章节安排

第二章 卷积神经网络与本文硬件加速系统设计

2.1 深度学习简介

2.1.1 基本概念

2.1.2 前向传播反向传播

2.2 卷积神经网络结构及模型

2.2.1 卷积神经网络的结构

2.2.2 卷积神经网络并行性

2.2.3 常见卷积神经网络模型

2.3 硬件加速技术

2.3.1 硬件加速平台简介

2.3.2 FPGA芯片结构及特点

2.3.3 硬件加速优化方法

2.4 本文卷积神经网络硬件加速系统设计

2.5 本章小结

第三章 卷积神经网络硬件结构设计

3.1 本文卷积神经网络模型

3.2 卷积神经网络硬件设计思路

3.3 卷积神经网络硬件结构设计

3.3.1 卷积层硬件设计

3.3.2 池化层硬件设计

3.3.3 激活函数硬件设计

3.3.4函数分类器硬件设计

3.3.5权值存储硬件设计

3.4 硬件优化设计

3.5 本章小结

第四章 基于ZYNQ的实时识别框架设计

4.1 图像采集及显示

4.2 数据存储结构设计

4.2.1 VDMA与DDR

4.2.2 视频时序控制模块

4.2.3 降采样模块与BRAM

4.3 实时识别框架系统实现

4.4 本章小结

第五章 硬件加速系统测试与验证

5.1 卷积神经网络各模块测试和验证

5.2 卷积网络模型权值训练

5.3 卷积神经网络硬件加速实时识别框架系统测试

5.4 本章小结

第六章 总结与展望

6.1 本文总结

6.2 工作展望

致谢

参考文献

附录

声明

展开▼

摘要

近几年来伴随着深度学习所带来的新的机器学习热潮,深度神经网络已经广泛的应用于图像识别、图像分类、目标检测和自然语言处理等不同的大规模机器学习问题当中,并且已经取得了一系列突破性的实验结果与实际应用,如今深度学习其强大的特征学习能力与识别分类能力被广泛的研究与关注。但由于深度学习中的卷积神经网络模型通常具有深度高、层次复杂、数量级大、并行度高、计算和存储密集的特征,从而使得大量的卷积计算操作和池化计算操作在具体应用中成为巨大的瓶颈,并且大量层间计算结果的存储对于计算机的存储结构也提出了较高的要求,使其在实时的应用场景下面临着巨大的挑战。现场可编程阵列FPGA(Field-Programmable Gate Array),是一种电路密集度大的运算加速器件,它集成了丰富的内部存储硬件资源、灵活的可编程逻辑资源以及高性能的计算资源,能够充分发挥卷积神经网络结构并行特性,并且能够在尺寸要求小、功耗限制低情况下实现卷积神经网络的高速运算,是实现卷积神经网络运算的理想平台。 本论文主要针对深度学习中的图像识别任务进行了硬件加速系统设计研究。文章主要根据卷积神经网络的结构特点,在基于ZYNQ系列芯片的FPGA上将卷积神经网络进行了硬化实现,利用FPGA的并行计算特性与流水线技术减少了卷积神经网络的计算时间,从而实现了卷积神经网络的硬件加速;同时为了满足实时场景下对图像识别的应用需求,本文设计出了一种实时识别硬件系统框架,采用软硬件协同的方式,使用ZYNQ系列芯片的ARM完成对输入图像数据的实时采集、存储和显示,将采集存储的数据通过AXI4总线传输至FPGA中硬化后的卷积神经网络来完成对图像的实时识别,并且该系统框架还可以替换不同的硬化卷积神经网络模型,满足多场景下的实时识别任务需求。 实验结果表明,本文设计的硬化卷积神经网络模型能够在单个时钟周期内完成528次卷积运算,相较于通用C P U的计算效率得到了显著提升;在对权值参数进行11位定点量化后网络的识别率为97.8%,具有较高的准确率;并且本文设计出的实时识别硬件系统框架能够实现对摄像头采集图像的实时识别,同时结合ZYNQ器件中高度模块化设计使得整个系统框架具有移植性高的特性,且系统整体运行时所需的功耗低。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号