首页> 中文学位 >基于自然梯度的统计模型的优化方法的研究
【6h】

基于自然梯度的统计模型的优化方法的研究

代理获取

目录

缩略词表

主要符号表

第一章 绪论

1.1 研究工作的背景与意义

1.2 自然梯度算法的国内外研究历史与现状

1.3 本文的主要贡献与创新

1.4 本论文的结构安排

第二章 自然梯度算法

2.1 自然梯度算法

2.1.1 KL散度

2.1.2 贝叶斯观点

2.1.3 Cramer-Rao下界

2.1.4 白化参数空间

2.2 实用的自然梯度算法

2.2.1 自适应自然梯度算法

2.2.2 HF

2.2.3 K-FAC

2.3 学习率

2.4 自然梯度算法的性质

2.5 本章小结

第三章 简化自适应自然梯度算法

3.1 简化自然梯度算法

3.2 简化自适应自然梯度算法

3.2.1 简化自适应自然梯度学习

3.2.2 逻辑斯蒂回归

3.2.3 回归问题块信息矩阵的计算

3.2.4 分类问题块信息矩阵的计算

3.2.5 块信息矩阵的性质

3.2.6 简化自适应自然梯度算法的收敛性

3.2.7 算法复杂度

3.2.8 算法进一步改进

3.3 本章小结

第四章 实验结果

4.1 Mackey-Glass chaotic时间序列预测

4.2 MNIST手写字体分类

4.3 Fashion-MNIST分类

第五章 全文总结与展望

5.1 全文总结

5.2 后续工作展望

致谢

参考文献

附录A

附录B

展开▼

摘要

分类与回归问题作为机器学习的两类主要问题,解决它们的主要方法是建立相应的含参统计模型,根据观测的样本数据进行训练得到最优模型,进而建立相应的分类器和拟合器。线性分类主要采取逻辑斯蒂回归模型,非线性分类和回归任务主要采取神经网络模型。训练这几种模型最流行的方法是随机梯度下降算法。然而,梯度下降算法仅仅利用了函数的一阶信息,同时由于神经网络具有高度非凸的性质,误差曲面有很多平原区域,使得训练过程经常是缓慢的,需要考虑更先进的算法。自然梯度算法可以通过有效地避开函数的平原区域来解决这个问题。 实施自然梯度算法,需要计算信息矩阵和它的逆矩阵。当模型拥有很多参数的时候,计算自然梯度方向需要庞大的计算量以及存储代价。传统上,信息矩阵的定义是梯度向量的外积的期望,矩阵的元素个数是梯度向量个数的平方。保留参数是矩阵的形式,可以建立一种新的自然梯度算法,称之为简化自然梯度算法。由于简化自然梯度算法不稳定,本文对它加以改进,称为简化自适应自然梯度算法,这个算法需要更少的计算量以及存储空间相比简化自然梯度,并且根据实验表明,收敛速度甚至超过动量梯度下降。 本文的主要内容总结如下: 1.阐述了自然梯度算法的来源。通过从概率分布的度量,也就是KL散度,贝叶斯观点,Cramer-Rao下界,以及白化参数空间导出自然梯度算法,这些观点都说明了自然梯度算法是最快的随机梯度算法。另外总结了已有的实用的自然梯度算法,也就是如何计算信息矩阵以及它的逆矩阵,并且探讨了自然梯度算法收敛迅速的原因。 2.介绍了简化自适应自然梯度算法。该算法是对简化自然梯度算法的改进。简化自然梯度算法的出发点是把参数保留成矩阵的形式,达到减少计算量的目的,由于采用的经验块信息矩阵容易缺秩,因此在算法的后期表现出震荡不收敛,同时算法前期误差几乎不下降。简化自适应自然梯度算法采用真实的块信息矩阵作为缩放矩阵,通过实验表明,误差下降很快,并且算法后期平稳地加速收敛。 3.给出了简化自适应自然梯度算法在几种模型上的的具体实施,以及从理论上说明了该算法的可行性,同时给出算法的计算复杂度,远远小于已有的二阶方法。最后给出了算法的进一步改进,通过考虑进动量项,加速算法收敛。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号