首页> 中文学位 >Caffe应用在主从式加速器上的内存管理与性能优化
【6h】

Caffe应用在主从式加速器上的内存管理与性能优化

代理获取

目录

声明

第一章 绪论

1.1 课题研究背景

1.2 课题研究现状

1.3 本文工作和创新点

1.4 论文组织结构

第二章 深度学习框架Caffe和CNN加速器

2.1 深度学习之CNN

2.2 深度学习框架Caffe

2.3 Caffe性能评测分析

2.4 基于FPGA的CNN加速器

2.5 本章小结

第三章 CNN加速器内存管理设计与实现

3.1 内存共享基础设施

3.2 共享空间模型

3.3 内存分配策略

3.4 数据一致性

3.5 实验测试

3.6 本章小结

第四章 Caffe的实现与性能优化

4.1 原型平台上的Caffe实现

4.2 评测环境

4.3 Caffe的性能评测

4.4 原型系统设计与实现

4.5 本章小结

第五章 总结与展望

5.1 工作总结

5.2 未来研究方向

致谢

参考文献

作者在学期间取得的学术成果

展开▼

摘要

深度学习近年来在各方面都取得了突破性的进展,如语音识别、图像分类等。而卷积神经网络作为第一个成功训练的多层网络,更是被广泛应用。但是由于CNN的特殊计算模式,使得一般的通用处理器对CNN的实现效率不高且不能满足其性能要求。因此,各种基于DSP、FPGA以及ASIC的加速器迅速发展,尤其是基于FPGA的加速器得到更多研究者的青睐。
  对于CNN这种计算密集型的任务,基于SoC FPGA的硬件加速器和CPU的协同工作在性能和能效上提供了显著的优势。但是,目前的操作系统对各种不同功能的加速器提供的支持很少:操作系统不知道一个计算任务是在CPU上还是加速器上执行;操作系统对CPU和加速器在内存上共享的数据没有提供有效管理,如零拷贝、数据一致性等;而且,当前的操作系统也很难为加速器分配大片连续的物理内存空间。本文中,我们选择Xilinx Zynq平台为研究目标,定性地分析了数据共享的方法。除了利用Zynq平台设备的高性能AXI接口,我们还为基于FPGA的卷积神经网络加速器设计了一个新的内存管理系统。它为CPU和加速器提供了一个统一的虚拟内存空间,使得他们能够在操作系统的用户空间访问到相同的内存空间,同时保证了数据的一致性。
  为了把加速器应用到实际中去,我们选取了深度学习中较流行的一个学习框架-Caffe,对其进行了评测分析。对于Caffe中的计算瓶颈部分,我们利用卷积神经网络加速器对其进行了加速,极大的减少了程序的执行时间。在加速实现过程中,我们实现了Caffe中卷积运算到加速器的映射,并对卷积运算中的矩阵进行了分块计算。对于核心的卷积计算,通过加速器加速,我们实现了最高4.8的加速比,而对于整个Caffe应用来说,我们实现了全应用2.74的加速比。
  同时,本文还根据加速器平台搭建了一个图像分类的原型演示系统,通过开发平台的VGA接口,系统能够在显示器上显示分类结果。

著录项

  • 作者

    肖涛;

  • 作者单位

    国防科学技术大学;

  • 授予单位 国防科学技术大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 罗莉;
  • 年度 2015
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 存贮器;
  • 关键词

    卷积神经; 网络加速器; 内存共享; 数据一致性;

  • 入库时间 2022-08-17 10:46:52

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号