首页> 外文会议>統計関連学会連合大会 >確率的勾配降下法のNTK理論による最適収束率
【24h】

確率的勾配降下法のNTK理論による最適収束率

机译:NTK概率梯度下降法的最佳收敛速度

获取原文

摘要

近年の研究により高次元ニューラルネットワークに対する確率的勾配降下法が何故大域収束し汎化性を持つのか特定条件下で解明されつつある.大域収束性の証明で重要な点は二ユーラルネットワークの学習ダイナミクスを関数空間において捉え,損失関数の関数についての凸性を活用することである.その際,ニューラルタンジェントカーネル(NTK)は有効な道具であり,オーバーパラメトライズされたニューラルネットワークの学習ダイナミクスをNTKに付随する再生核ヒルベルト空間でのダイナミクスとして記述することができる.この性質を活用し高次元ニューラルネットワークの勾配降下法に対する大域収束性がで示され,更に汎化誤差の収束解析が[3jにより行われた.また,これらの理論では訓練データ上のNTKのグラム行列の最小固有値が収束速度へ影響を及ぼすことも示唆された.しかし訓練データサイズが大きくなるにつれNTKのグラム行列が退化していくことが関数解析の理論から分かる.この事実はの汎化誤差バウンドが訓練データサイズの増加に伴いO(T~(-1/2)) (T:訓練データサイズ)よりも遅いという結論を導く.一方で,再生核ヒルベルト空間における学習理論では確率的勾配降下法が汎化誤差について最適収束率O(T-2rβ/2~(rβ+1))を達成することが知られている.ここでr∈[1/2,1]はベイズ規則の複雑さであり,β>1はカーネルのグラム行列の固有値の減衰率,すなわち再生核ヒルベルト空間の大きさを示す.この収束率はグラム行列の退化はむしろ学習の効率化を意味し,NTK理論と大きなギヤップがぁることが分かる.
机译:最近的研究表明概率梯度降低方法高维神经网络,具有广泛的口腔,并具有通用性。要点为全局收敛性和学习两eural网络学习动力学在功能空间捕获并利用约损失函数凸面功能。当时,神经切线内核(NTK)是一个有效的工具和overparamed神经网络的学习动力是NTK它可以被描述为伴随再生核希尔伯特空间动态。这个属性是用来显示全球收敛到高维神经网络的梯度下降法,和泛化误差的进一步收敛分析[3J另外,在这些理论,有人还建议,NTK的训练数据的最小克矩阵影响的收敛速度。然而,作为训练数据的大小的增加,NTK的克矩阵将降低它可以从功能分析理论可以看出这一事实导致这样的结论:结合的泛化误差为O慢(T至(-1/2)) (T:训练数据的大小)。另一方面,在再生核希尔伯特空间的学习理论,已知的是,概率梯度下降方法实现了最优收敛速度O(叔2Rβ/ 2至(Rβ+ 1。 )),用于推广误差。在R∈1/2,1]是贝叶斯规则的复杂性,β> 1表示内核的克矩阵,即的本征值的衰减因子,的幅度再生核希尔伯特空间。这收敛速度是学习的克矩阵退休反而得到改善,提高学习效率,而且可以看出,NTK理论和伟大的齿轮可以给出。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号