Robots; Training; Reinforcement learning; Gradient methods; Navigation; Decision making; Heuristic algorithms;
机译:PP-PG:将参数扰动与政策梯度方法相结合,为深加固学习中有效和高效的探索
机译:利用分层深度加强学习对多个域和意图的综合对话政策学习
机译:沟通学习何时需要分层多功能深度加强学习
机译:学习中断:高效勘探的分层深度加强学习框架
机译:机器人技术和数据科学的分层深度强化学习
机译:学习机器人:深增强学习仿制学习转移学习
机译:学习中断:高效勘探的分层深度加强学习框架