首页> 外文会议>情報処理学会;情報処理学会全国大会 >大規模並列深層学習のための目的関数の平滑化
【24h】

大規模並列深層学習のための目的関数の平滑化

机译:平滑目标函数以进行大规模并行深度学习

获取原文

摘要

深層学習では極めて冗長な数のパラメータを持つ深層ニューラルネットワーク(DNN) を膨大な学習データを用いて学習することで他の機械学習手法を圧倒する高い性能を発揮している.一方で,DNN の学習には膨大な計算時間がかかるため,大規模並列化によって学習時間を短縮するのが喫緊の課題である.SGD における小さなバッチサイズ(SB : SmallBatch) での学習は確率的なノイズの影響で汎化性能の高い解(Flat Minima) に収束する理論づけとして,SGD のプロセスがRandom Potential のRandom Walk に類似しているという説や,SGD はパラメータの近似ベイズ推定を行なっているとみなせるため,SGD のノイズを調整をすることで良い汎化が期待できるといった研究の報告がある.大きなバッチサイズ(LB : Large Batch) での学習ではそのノイズが適切ではなくなり,局所解から多少のパラメータ変動で誤差が極端に増加するSharp Minima を避けることができず汎化性能が劣化するといった報告や,Keskar らは,SGD を用いたDNN のバッチサイズを増加させた場合,目的関数の勾配が正確になり分散が小さくなることに起因して汎化性能が劣化するとしている.本研究では,汎化性能を改善するための前処理手法であるData Augmentation を,大きなバッチサイズ(LB : Large Batch) での学習に適用し,大規模並列化に伴うバッチサイズの増加により汎化性能が劣化する問題のへの解決手法となるか,また目的関数を平滑化する効果があるのかの検証を行う.
机译:深度学习具有大量冗余参数 使用大量的培训数据来学习RAL网络(DNN) 通过这样做,它证明了淹没其他机器学习方法的高性能。 有。另一方面,学习DNN需要花费大量的计算时间。 因此,通过大规模并行化来缩短学习时间是当务之急。 这是标题。小批量(新元)(SB:小) 由于随机噪声的影响,“批量学习”是一种具有较高泛化性能的解决方案。 SGD过程作为一种融合理论(Flat Minima) 类似于随机电位的随机游动 从理论上讲,SGD可以对参数进行近似的贝叶斯推断。 调整SGD的噪声很好,因为它可以被认为是 有研究报告认为可以推广。大包 噪声适合在Chisize中学习(LB:大批量) 由于局部解的一些参数波动,因此误差非常大。 边缘处锐利的最小值无法避免,泛化性能 报告说它恶化了,Keskar等人使用了SGD。 当DNN的批次大小增加时,目标函数的梯度为正。 由于确定性和较小的差异,泛化性能会下降 应该是。在本研究中,在提高泛化性能之前 数据增强是一种处理方法,具有较大的批处理大小。 适用于(LB:Large Batch)中的学习,并伴随大规模并行化 解决由于批量大小增加而导致泛化性能下降的问题 检查这是一种方法还是具有平滑目标函数的效果 作证。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号