首页> 中文期刊> 《计算机学报》 >神经网络增强学习的梯度算法研究

神经网络增强学习的梯度算法研究

         

摘要

针对具有连续状态和离散行为空间的Markov决策问题,提出了一种新的采用多层前馈神经网络进行值函数逼近的梯度下降增强学习算法.该算法采用了近似贪心且连续可微的Boltzmann分布行为选择策略,通过极小化具有非平稳行为策略的Bellman残差平方和性能指标,以实现对Markov决策过程最优值函数的逼近.对算法的收敛性和近似最优策略的性能进行了理论分析.通过Mountain-Car学习控制问题的仿真研究进一步验证了算法的学习效率和泛化性能.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号