机译:连续状态和动作空间中基于峰值的强化学习:当策略梯度方法失败时
机译:连续动作空间中仅用于批判性强化学习的策略推导方法
机译:连续空间中仅限批评家的强化学习的策略推导方法
机译:使用Dyna和策略逼近在连续状态和动作空间中进行有效的强化学习
机译:连续动作空间中隐式策略方法强化学习的动作选择方法比较
机译:通过在连续的感官和动作空间中的演示来学习控制策略。
机译:更正:在连续状态和动作空间中基于峰值的强化学习:当策略梯度方法失败时
机译:更正:在连续状态和动作空间中基于峰值的强化学习:当策略梯度方法失败时