机译:模拟电力贸易中基于策略梯度和价值函数的强化学习方法比较
Department of Electronic and Electrical Engineering, The University of Strathclyde, Glasgow, Scotland;
Artificial intelligence; game theory; gradient methods; learning control systems; neural network applications; power system economics;
机译:连续状态和动作空间中基于峰值的强化学习:当策略梯度方法失败时
机译:一种基于政策梯度潜力的协同多合作加固学习方法
机译:基于策略梯度法的不确定系统鲁棒强化学习控制器训练
机译:基于估计状态值函数的离散线性二次调节问题的策略梯度强化学习方法
机译:政策感知模型学习策略梯度方法
机译:更正:在连续状态和动作空间中基于峰值的强化学习:当策略梯度方法失败时
机译:模拟电力贸易中基于策略梯度和价值函数的强化学习方法比较