机译:基于策略梯度法的不确定系统鲁棒强化学习控制器训练
机译:具有输入约束的不确定非线性系统的基于强化学习的鲁棒控制器设计
机译:基于非策略强化学习的离散时间不确定线性系统的数据驱动鲁棒控制
机译:一类动力学完全未知的不确定非线性系统的鲁棒控制方案,采用数据驱动的强化学习方法
机译:离散时间不确定线性系统鲁棒控制的禁止策略加固学习
机译:培养基于物理的控制器,用于铰接性的人物,深增强学习
机译:更正:在连续状态和动作空间中基于峰值的强化学习:当策略梯度方法失败时
机译:在自主机器人控制器上使用策略梯度强化学习