首页> 中文学位 >深度学习模型的高效训练算法研究
【6h】

深度学习模型的高效训练算法研究

代理获取

目录

声明

摘要

表格索引

插图索引

算法索引

主要符号对照表

第一章 绪论

1.1 研究背景及意义

1.2 深度学习研究现状

1.3 深度神经网络简介

1.3.1 网络结构

1.3.2 后向传播算法

1.4 递归神经网络简介

1.4.1 网络结构

1.4.2 时域后向传播算法

1.5 长短时记忆元递归神经网络

1.5.1 LSTM结构

1.5.2 后向传播

1.6 深度学习模型在大词汇量连续语音识别中的应用

1.7 序列标注的连接时序分类训练

1.7.1 相关概念

1.7.2 前后向算法

1.7.3 模型训练

1.7.4 解码算法

1.8 本文主要工作

1.9 本文结构安排

第二章 基于样本分离边距的最小分类误差准则在深度神经网络训练中的应用

2.1 引言

2.2 ReLU-DNN在模式分类问题中的应用

2.3 交叉熵准则

2.4 最小分类误差准则

2.5 基于样本分离边距的最小分类误差准则

2.6 实验结果

2.6.1 实验设置

2.6.2 手写识别实验结果

2.7 本章小结

第三章 长短时记忆元递归神经网络的一种快速训练算法

3.1 引言

3.2 递归神经网络训练算法回顾

3.2.1 BPTT(∞)算法

3.2.2 BPTT(h)算法

3.2.3 BPTT(h,h’)算法

3.2.4 Epoch-wise BPTT算法

3.2.5 RTRL算法

3.3 基于上下文敏感区块的BPTT算法

3.3.1 上下文敏感区块定义

3.3.2 训练算法

3.3.3 解码算法

3.4 其他研究组的相关后续工作

3.5 实验结果

3.5.1 手写识别任务

3.5.2 大词汇量连续语音识别任务

3.6 本章小结

第四章 深度学习模型的数据并行训练算法

4.1 引言

4.2 相关工作

4.2.1 异步随机梯度下降算法

4.2.2 模型平均算法

4.2.3 1-bit SGD

4.3 数据并行增量块训练框架

4.4 基于ADMM的IBT算法

4.4.1 ADMM算法的一般形式

4.4.2 全局一致问题的ADMM求解算法

4.4.3 基于ADMM的深度学习模型训练IBT算法

4.5 基于数据并行优化和BMUF的IBT算法

4.5.1 MA算法与SGD算法比较

4.5.2 逐区块模型更新滤波技术

4.5.3 BMUF算法技术原理

4.5.4 BMUF算法训练参数设置准则

4.6 训练系统实现

4.6.1 实验平台

4.6.2 实现细节

4.7 实验结果

4.7.1 实验数据集

4.7.2 基于ADMM的分布式IBT算法实验结果

4.7.3 基于数据并行优化和BMUF的IBT算法

4.8 本章小结

第五章 总结和展望

5.1 本文研究重点回顾

5.2 研究工作展望

参考文献

致谢

在读期间发表的学术论文与取得的研究成果

展开▼

摘要

近年来,深度学习技术被成功应用于语音识别、手写识别、计算机视觉、自然语言处理等领域,取得了显著成果。随着深度学习模型结构日趋复杂,训练数据不断增加,如何实现模型的高效训练,成为亟待解决的问题,当下计算技术,特别是高性能计算(HPC)和图形处理单元(GPU)技术的发展使得我们可以利用的计算资源越来越多,这为该问题的解决提供了良好的契机。本文围绕整流线性单元(ReLU)深度神经网络(DNN)的新训练准则,深度双向长短时记忆元(DBLSTM)递归神经网络(RNN)的快速训练以及深度学习模型的可扩展训练等三个方面对该问题进行了研究,并有所创新。
  首先,针对用于分类问题的ReLU-DNN,本文提出用基于样本分离边距(SSM)的最小分类误差(MCE)准则替代传统的交叉熵(CE)准则对模型进行训练。对于给定的训练样本,如果忽略ReLU-DNN中输出为0的隐层节点,该网络可被视作线性分类器,SSM-MCE作为适用于线性分类器的训练准则,其损失函数直接与分类错误率相关,在最小化损失函数的同时,可以增大SSM,改善模型在测试集上的泛化能力。实验结果表明,SSM-MCE在巾小规模的网络上可以取得优于CE的结果。
  其次,本文针对DBLSTM训练缓慢,解码延迟高的问题,提出了基于上下文敏感区块(CSC)的时域后传(BPTT)训练算法及其相应的解码算法。该算法将长序列的DBLSTM建模的问题转化成短CSC的建模,提高了模型训练的并行度,加快了训练速度,降低了解码延迟,为DBLSTM的实时应用奠定了基础。实验结果表明,在大词汇量连续语音识别(LVCSR)任务上,该方法取得了与传统方法相同的识别效果,而训练速度加快了3.4倍,解码延迟大大降低。
  再次,为了利用大规模数据对深度学习模型进行并行训练,我们提出了增量块训练(IBT)框架下的变方向乘子(ADMM)算法。作为一种数据并行算法,基于ADMM的IBT算法将无约束的深度学习模型训练问题转化成全局一致约束下的优化问题进行求解。我们在HPC集群上对其进行了实现,实验结果表明,在1,860小时的LVCSR的DNN训练任务上,该算法取得了与模型平均(MA)算法大致相同的结果,且实现了训练的线性加速。
  最后,针对MA并行训练算法随并行机器增多,模型性能显著下降的问题,本文将全局模型的更新看作随机优化过程,提出了逐块模型更新滤波(BMUF)算法。该算法使用块冲量(BM)技术,补偿了MA算法中取平均操作带来的负面作用。在1,860小时LVCSR的神经网络训练任务上,本算法在多达64块卡的DNNCE训练和32块卡的带投影层DBLSTM(DBLSTMP)CE训练上均实现了近乎线性加速,在一百万行手写识别的DBLSTM训练任务上,使用32块卡实现了DBLSTM连接时序分类(CTC)训练的28倍加速,这些并行训练得到的模型与单机训练得到的相比,性能基本没有下降,有些情况下甚至更好。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号