首页> 中文期刊>计算机工程与应用 >效用驱动的Markov强化学习

效用驱动的Markov强化学习

     

摘要

对智能体Q强化学习方法进行了扩展,讨论效用驱动的Markov强化学习问题.与单吸收状态相比,学习过程不再是状态驱动,而是效用驱动的.智能体的学习将不再与特定的目标状态相联系,而是最大化每步的平均期望收益,即最大化一定步数内的收益总和,因此学习结果是一个平均收益最大的最优循环.证明了多吸收状态下强化学习的收敛性,将栅格图像看作具有多个吸收状态的格子世界,测试了确定性环境下多吸收状态Q学习的有效性.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号