fuzzy control; learning (artificial intelligence); gradient methods; fuzzy rules; fuzzy control; policy gradient fuzzy reinforcement learning; gradient estimate;
机译:策略中带有模糊控制器的策略梯度强化学习算法
机译:使用政策梯度优化和Q-Learning避免深增强学习碰撞
机译:使用基于价值梯度的策略进行实时运动控制的无学习率强化学习
机译:基于机器人加强学习精确的基于学习分类器系统,具有模糊政策梯度下降(XCS-FPGR1)
机译:使用强化模糊学习在追逃性差分游戏中学习。
机译:更正:在连续状态和动作空间中基于峰值的强化学习:当策略梯度方法失败时
机译:政策模糊控制器的政策梯度加固学习:Robocup足球小型联赛中的决策