control system; direction of greatest rate; gradient policy; neuron networks;
机译:策略中带有模糊控制器的策略梯度强化学习算法
机译:使用政策梯度优化和Q-Learning避免深增强学习碰撞
机译:使用基于价值梯度的策略进行实时运动控制的无学习率强化学习
机译:强化学习过程中梯度策略的修改
机译:用动力系统解释集体行为:多核化趋化性的空间梯度传感和多核强化学习中的学习动态
机译:更正:在连续状态和动作空间中基于峰值的强化学习:当策略梯度方法失败时
机译:政策模糊控制器的政策梯度加固学习:Robocup足球小型联赛中的决策