function approximation; gradient methods; learning (artificial intelligence); learning systems; neurocontrollers; stochastic processes;
机译:策略中带有模糊控制器的策略梯度强化学习算法
机译:使用基于价值梯度的策略进行实时运动控制的无学习率强化学习
机译:通过使用策略梯度学习动态策略:在Biped步行中的应用
机译:使用政策梯度学习用于神经胸控制的第一秒杀政策
机译:政策感知模型学习策略梯度方法
机译:从演示到具有演变策略梯度的各种方案概括机器人学习
机译:政策模糊控制器的政策梯度加固学习:Robocup足球小型联赛中的决策