Mutli-agent system; Inverse reinforcement learning; Reward extrapolation; Iterative extrapolation; Knowledge transfer;
机译:SWIRL:顺序窗口逆强化学习算法,用于延迟奖励的机器人任务
机译:基于高斯逆强化学习算法的基于投资者情绪回报的交易系统
机译:逆强化学习中对抽象特征的修正奖励函数
机译:奖励函数估算逆加强学习中的学习效率
机译:使用分布式奖励制定学习基于模型的强化学习的政策
机译:推断精神分裂症患者的奖励预测错误:强化学习的动态奖励任务
机译:主动学习在逆向强化学习中的奖励估算