机译:一种用于解决奖励黑客的新型多步强化学习方法
South China Univ Technol Coll Automat Sci &
Engn Guangzhou 510641 Guangdong Peoples R China;
South China Univ Technol Coll Automat Sci &
Engn Guangzhou 510641 Guangdong Peoples R China;
South China Univ Technol Coll Automat Sci &
Engn Guangzhou 510641 Guangdong Peoples R China;
South China Univ Technol Coll Automat Sci &
Engn Guangzhou 510641 Guangdong Peoples R China;
South China Univ Technol Coll Automat Sci &
Engn Guangzhou 510641 Guangdong Peoples R China;
Reinforcement learning; Robotics; Reward hacking; Multi-step methods;
机译:一种用于解决奖励黑客的新型多步强化学习方法
机译:一种新型的多步Q学习方法,可提高深度强化学习的数据效率
机译:一种新型多步Q学习方法,提高深增强学习数据效率
机译:多步法方法对深加固学习高估的影响
机译:使用分布式奖励制定学习基于模型的强化学习的政策
机译:分层强化学习中基于动作子奖励的奖励优化方法
机译:多步法对深增强学学习高估的影响
机译:从人类奖励中学习强化学习:奖励积极性,时间贴现,情节性和表现。