机译:使用具有稀疏奖励的机器人任务的演示高效的后敏感钢筋学习
Robot learningreinforcement learningsparse rewardCAHERdemonstrations;
机译:与后威政策梯度的稀疏奖励环境中的加固学习
机译:SWIRL:顺序窗口逆强化学习算法,用于延迟奖励的机器人任务
机译:软电演位批评机器人机器人与后勤体验重播的批评
机译:稀疏奖励缩放连续机器人任务的数据有效的深度增强学习方法
机译:机器人任务规划加速奖励功能技术的深增强学习
机译:人类示威活动的机器人装配任务任务学习策略
机译:与后威政策梯度的稀疏奖励环境中的加固学习