首页> 中文学位 >基于多GPU的多层神经网络并行加速训练算法的研究
【6h】

基于多GPU的多层神经网络并行加速训练算法的研究

代理获取

目录

第1章 绪 论

1.1 课题研究背景及意义

1.2网络加速训练的国内外研究现状及分析

1.3 本文主要研究内容

1.4 本文的结构

第2章 神经网络模型及其学习方法

2.1 人工神经网络概述

2.2 BP神经网络模型

2.3 对异步随机梯度下降算法的研究

2.4 本章小结

第3章 基于CUDA的加速训练算法的研究与设计

3.1 CUDA的概述

3.2 基于单GPU的加速训练算法的研究

3.3 基于多GPU的异步随机梯度下降算法的改进和设计

3.4 本章小结

第4章 基于多GPU的网络加速训练实验分析

4.1 引言

4.2 系统实验硬件及软件平台

4.3 MNIST数据集及其存储处理

4.4 单GPU实验及其结果对比分析

4.5 多GPU环境实验及其结果对比分析

4.6 本章小结

结论

参考文献

声明

致谢

展开▼

摘要

神经网络在刚刚起步之初,由于硬件发展水平的限制,主要使用CPU或其集群训练模型。而对于目前深度学习中需要密集计算的多层神经网络而言,在传统的CPU环境中的训练时间成本较高,因此硬件的计算资源成为网络训练的瓶颈,耗时严重是影响实验效率的关键问题。
  如今GPU是拥有大量运算单元的通用计算设备,使用其进行神经网络的训练成为一种必然趋势。与在CPU上传统低效的串行训练过程不同,在GPU上的训练过程需要充分利用硬件计算资源和挖掘网络模型的并行性。如何在多GPU的环境中分摊训练数据集以及实时传递更新网络参数以及梯度是本课题的主要研究内容和工作。
  本课题致力于基于多GPU的多层神经网络并行加速训练算法的研究。在对多层神经网络有监督学习过程做了深入的分析后,根据网络模型的并行结构和学习方式,设计了以小批量数据集并行前馈传播和误差反向传播的方法完成单GPU在CUDA平台上的模型并行和数据并行。详细研究和分析了传统的异步随机梯度下降算法中影响训练速度的临界资源问题,提出三处改进,首先在参数服务器中增加模型参数副本,其次设计小批量数据集的分发机制,然后设置一个独立的梯度分发线程完成GPU与参数服务器之间梯度的调度。系统在多GPU上实现改进后的异步随机梯度下降算法,实现了在多个模型副本上的数据并行。实验对比分析阶段,以网络训练时间为基准,对比在单GPU和CPU上的实现相同网络结构训练的实验效果。与当前流行的DMLC深度学习框架的训练效果进行比较,系统表现出了显著的加速效果。在多GPU上,对比分析当分别设置不同大小的批量数据以及不同GPU个数训练时达到的加速效果,并通过算法改进前后的对比实验验证了改进的异步随机梯度下降算法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号