首页> 外文期刊>Neural computation >A Unified Analysis of Value-Function-Based Reinforcement-Learning Algorithms
【24h】

A Unified Analysis of Value-Function-Based Reinforcement-Learning Algorithms

机译:基于价值函数的强化学习算法的统一分析

获取原文
获取原文并翻译 | 示例

摘要

Reinforcement learning is the problem of generating optimal behavior in a sequential decision-making environment given the opportunity of interacting with it. Many algorithms for solving reinforcement-learning problems work by computing improved estimates of the optimal value function. We extend prior analyses of reinforcement-learning algorithms and present a powerful new theorem that can provide a unified analysis of such value-function-based reinforcement-learning algorithms. The usefulness of the theorem lies in how it allows the convergence of a complex asynchronous reinforcement-learning algorithm to be proved by verifying that a simpler synchronous algorithm converges. We illustrate the application of the theorem by analyzing the convergence of Q-learning, model-based reinforcement learning, Q-learning with multistate updates, Q-learning for Markov games, and risk-sensitive reinforcement learning.
机译:强化学习是在有机会与之互动的情况下,在顺序决策环境中生成最佳行为的问题。许多用于解决强化学习问题的算法都是通过计算最佳值函数的改进估计来起作用的。我们扩展了强化学习算法的先前分析,并提出了一个功能强大的新定理,该定理可以为此类基于价值函数的强化学习算法提供统一的分析。该定理的有用之处在于,它如何通过验证更简单的同步算法收敛来证明复杂的异步强化学习算法的收敛性。我们通过分析Q学习,基于模型的强化学习,具有多状态更新的Q学习,用于Markov游戏的Q学习以及风险敏感的强化学习的收敛性来说明该定理的应用。

著录项

  • 来源
    《Neural computation》 |1999年第8期|2017-2060|共44页
  • 作者

    Szepesvári C; Littman M;

  • 作者单位

    Mindmaker, Ltd., Budapest 1121, Konkoly Thege M. U. 29-33, Hungary;

  • 收录信息 美国《科学引文索引》(SCI);美国《化学文摘》(CA);
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号