首页> 中文期刊> 《计算机应用研究 》 >在线更新的信息强度引导启发式Q学习

在线更新的信息强度引导启发式Q学习

             

摘要

针对强化学习收敛速度慢的问题,提出可在线更新的信息强度引导的启发式Q学习算法以加快强化学习算法的收敛速度.该算法在启发式强化学习算法的基础上引入依据每次训练回报情况进行在线更新的信息强度,通过结合强弱程度不同的动作信息强度更新的启发函数和状态—动作值函数来确定策略,从而提高算法收敛速度.给出该算法并对其收敛性进行证明,同时针对不同参数设置和仿真环境进行路径规划的仿真对比实验,得到实验结果:信息强度引导的启发式Q学习算法在成功率、达到目标位置所需步数及所获回报上均优于Q学习和基本启发式Q学习算法.实验结果表明,该算法能更快地得到回报较高的策略且不会陷入局部收敛,因而该算法能够有效提高算法的收敛速度.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号