...
机译:基于计划的奖励成型,用于多主体强化学习
Univ York, Dept Comp Sci, York YO10 5GH, N Yorkshire, England;
Univ York, Dept Comp Sci, York YO10 5GH, N Yorkshire, England;
机译:利用多功能钢筋学习促进驾驶员重新定位的奖励设计
机译:基于迷宫问题的内部奖励的强化学习多功能协作
机译:奖励共享在多主体强化学习中的合理性
机译:基于计划的加固学习奖励塑造
机译:奖励预测错误在加固学习期间形状内存
机译:增强Q学习控制在半主动假肢膝关节中为摆动相位控制的奖励塑造功能
机译:将分层强化学习扩展到连续时间,平均奖励和多智能体模型
机译:将分层强化学习扩展到连续时间,平均奖励和多智能体模型