机译:偏见减少的后敏感体验重放虚拟目标优先级
Ben Gurion Univ Negev Dept Ind Engn & Management Beer Sheva Israel;
Ben Gurion Univ Negev Dept Ind Engn & Management Beer Sheva Israel;
Multi-goal reinforcement learning; Hindsight Experience Replay; Sparse reward function; Virtual goals;
机译:通过深度确定性政策梯度与后敏感体验重放的持续共享控制掌握任务
机译:软电演位批评机器人机器人与后勤体验重播的批评
机译:为优先考虑强化学习产生专注目标
机译:Hindsight - 合并和后视优先考虑重播
机译:CheckPoint Hindsight体验重播,直观地在奖励稀疏环境中应用域知识
机译:使用深度加强学习的多臂操纵器的路径规划:软演员 - 与后敏感体验重播
机译:Hindsight体验重播改善了控制人类手臂MIMO肌肉骨骼模型的加固学习