Policy Derivation Methods for Critic-Only Reinforcement Learning in Continuous Action Spaces

机译：在连续行动空间中批评的批评加强学习的政策推导方法

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

State-of-the-art critic-only reinforcement learning methods can deal with a small discrete action space. The most common approach to real-world problems with continuous actions is to discretize the action space. In this paper a method is proposed to derive a continuous-action policy based on a value function that has been computed for discrete actions by using any known algorithm such as value iteration. Several variants of the policy-derivation algorithm are introduced and compared on two continuous state-action benchmarks: double pendulum swing-up and 3D mountain car.

机译：最先进的批评批评学习方法可以处理小的离散动作空间。具有持续动作的现实问题最常见的方法是使动作空间分开。在本文中，提出了一种方法，用于基于使用任何已知算法（例如价值迭代）为离散动作计算的值函数的连续动作策略。介绍了两种连续的状态动作基准和3D山地汽车的两种连续状态动作基准和3D山地汽车的若干策略推导算法的若干变体。

著录项

来源
《IFAC Conference on Intelligent Control and Automation Sciences》|2016年|376p|共6页
会议地点
作者
Eduard Alibekov; Jiri Kubalik; Robert Babuska;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类 TP273-53;
关键词
Reinforcement learning; Continuous actions; Multi-variable systems; Optimal control; Policy derivation;

机译：强化学习;连续动作;多变量系统;最优控制;策略推导;
入库时间 2022-08-20 23:00:04

相似文献

外文文献
中文文献
专利

1. Policy Derivation Methods for Critic-Only Reinforcement Learning in Continuous Action Spaces [J] . Eduard Alibekov, Jiri Kubalik, Robert Babuska IFAC PapersOnLine . 2016,第5期

机译：连续动作空间中仅用于批判性强化学习的策略推导方法
2. Policy derivation methods for critic-only reinforcement learning in continuous spaces [J] . Eduard Alibekov, Jiří Kubalík, Robert Babuška Engineering Applications of Artificial Intelligence . 2018,第MARa期

机译：连续空间中仅限批评家的强化学习的策略推导方法
3. Spike-Based Reinforcement Learning in Continuous State and Action Space: When Policy Gradient Methods Fail [J] . Eleni Vasilaki, Nicolas Frémaux, Robert Urbanczik, PLoS Computational Biology . 2009,第12期

机译：连续状态和动作空间中基于峰值的强化学习：当策略梯度方法失败时
4. Policy Derivation Methods for Critic-Only Reinforcement Learning in Continuous Action Spaces [C] . Eduard Alibekov, Jiri Kubalik, Robert Babuska IFAC Conference on Intelligent Control and Automation Sciences . 2016

机译：在连续行动空间中批评的批评加强学习的政策推导方法
5. Learning control policies from demonstration in continuous sensory and action space. [D] . McLeod, Adam M. 2015

机译：通过在连续的感官和动作空间中的演示来学习控制策略。
6. Correction: Spike-Based Reinforcement Learning in Continuous State and Action Space: When Policy Gradient Methods Fail [O] . Eleni Vasilaki, Nicolas Frémaux, Robert Urbanczik, 2009

机译：更正：在连续状态和动作空间中基于峰值的强化学习：当策略梯度方法失败时
7. A comparison of action selection methods for implicit policy method reinforcement learning in continuous action-space [O] . Nichols, Barry D. 2016

机译：连续动作空间中隐式策略方法强化学习的动作选择方法比较

Policy Derivation Methods for Critic-Only Reinforcement Learning in Continuous Action Spaces

摘要

著录项

相似文献

相关主题

期刊订阅