Tufts University.;
Checkpoint hindsight experience replay; Checkpoints; Hindsight experience replay; Object manipulation; Reinforcement learning; Reward shaping;
机译:偏见减少的后敏感体验重放虚拟目标优先级
机译:通过深度确定性政策梯度与后敏感体验重放的持续共享控制掌握任务
机译:软电演位批评机器人机器人与后勤体验重播的批评
机译:Hindsight - 合并和后视优先考虑重播
机译:用于后古经验重播的加权奖励
机译:使用深度加强学习的多臂操纵器的路径规划:软演员 - 与后敏感体验重播
机译:Hindsight体验重播改善了控制人类手臂MIMO肌肉骨骼模型的加固学习