首页> 外文期刊>Machine Learning >Convergence Results for Single-Step On-Policy Reinforcement-Learning Algorithms
【24h】

Convergence Results for Single-Step On-Policy Reinforcement-Learning Algorithms

机译:单步策略强化学习算法的收敛结果

获取原文
获取原文并翻译 | 示例

摘要

An important application of reinforcement learning (RL) is to finite-state control problems and one of the most difficult problems in learning for control is balancing the exploration/exploitation tradeoff. Existing theoretical results for RL give very little guidance on reasonable ways to perform exploration. In this paper, we examine the convergence of single-step on-policy RL algorithms for control.
机译:强化学习(RL)的重要应用是有限状态控制问题,而控制学习中最困难的问题之一就是平衡勘探/开发权衡。 RL的现有理论结果几乎没有给出进行勘探的合理方法的指导。在本文中,我们研究了用于控制的单步按策略RL算法的收敛性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号