机译:一种基于策略迭代的平均奖励强化学习算法:收益管理与收敛性分析的实证结果
机译:PP-PG:将参数扰动与政策梯度方法相结合,为深加固学习中有效和高效的探索
机译:模拟电力贸易中基于策略梯度和价值函数的强化学习方法比较
机译:无限地平线加固学习政策梯度法的收敛性和迭代复杂性
机译:关于用于增强学习的无模型策略迭代算法的收敛:不连续平均动力学下的随机逼近。
机译:更正:在连续状态和动作空间中基于峰值的强化学习:当策略梯度方法失败时
机译:基于普通奖励政策迭代的加强学习算法:屈服管理和收敛分析的经验结果
机译:无限地平线Dec-pOmDp中策略同步的分布式强化学习。