Institute of Applied Informatics, Automation and Mathematics, Faculty of Materials Science and Technology in Trnava, Slovak University of Technology in Bratislava, Trnava, Slovak Republic;
control system; direction of greatest rate; gradient policy; neuron networks;
机译:策略中带有模糊控制器的策略梯度强化学习算法
机译:使用政策梯度优化和Q-Learning避免深增强学习碰撞
机译:使用基于价值梯度的策略进行实时运动控制的无学习率强化学习
机译:加固学习过程中渐变政策的修改
机译:用动力系统解释集体行为:多核化趋化性的空间梯度传感和多核强化学习中的学习动态
机译:更正:在连续状态和动作空间中基于峰值的强化学习:当策略梯度方法失败时
机译:政策模糊控制器的政策梯度加固学习:Robocup足球小型联赛中的决策