首页> 外文期刊>JMLR: Workshop and Conference Proceedings >Learning Intrinsic Rewards as a Bi-Level Optimization Problem
【24h】

Learning Intrinsic Rewards as a Bi-Level Optimization Problem

机译:学习内在奖励作为双层优化问题

获取原文
           

摘要

We reinterpret the problem of finding intrinsic rewards in reinforcement learning (RL) as a bilevel optimization problem. Using this interpretation, we can make use of recent advancements in the hyperparameter optimization literature, mainly from Self-Tuning Networks (STN), to learn intrinsic rewards. To facilitate our methods, we introduces a new general conditioning layer: Conditional Layer Normalization (CLN). We evaluate our method on several continuous control benchmarks in the Mujoco physics simulator. On all of these benchmarks, the intrinsic rewards learned on the fly lead to higher final rewards.
机译:我们重新诠释了强化学习中的内在奖励的问题(RL)作为彼得纤维优化问题。使用此解释,我们可以利用近期优化文献中的最新进步,主要来自自我调整网络(STN),学习内在奖励。为方便我们的方法,我们介绍了一个新的一般调理层:条件层归一化(CLN)。我们对Mujoco物理模拟器的几个连续控制基准进行了评估了我们的方法。在所有这些基准上,内在奖励在飞行中学到的是更高的最终奖励。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号