Learning Intrinsic Rewards as a Bi-Level Optimization Problem

Bradly Stadie; Lunjun Zhang; Jimmy Ba

首页> 外文期刊>JMLR: Workshop and Conference Proceedings >Learning Intrinsic Rewards as a Bi-Level Optimization Problem

【24h】

Learning Intrinsic Rewards as a Bi-Level Optimization Problem

机译：学习内在奖励作为双层优化问题

获取原文

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

We reinterpret the problem of finding intrinsic rewards in reinforcement learning (RL) as a bilevel optimization problem. Using this interpretation, we can make use of recent advancements in the hyperparameter optimization literature, mainly from Self-Tuning Networks (STN), to learn intrinsic rewards. To facilitate our methods, we introduces a new general conditioning layer: Conditional Layer Normalization (CLN). We evaluate our method on several continuous control benchmarks in the Mujoco physics simulator. On all of these benchmarks, the intrinsic rewards learned on the fly lead to higher final rewards.

机译：我们重新诠释了强化学习中的内在奖励的问题（RL）作为彼得纤维优化问题。使用此解释，我们可以利用近期优化文献中的最新进步，主要来自自我调整网络（STN），学习内在奖励。为方便我们的方法，我们介绍了一个新的一般调理层：条件层归一化（CLN）。我们对Mujoco物理模拟器的几个连续控制基准进行了评估了我们的方法。在所有这些基准上，内在奖励在飞行中学到的是更高的最终奖励。

著录项

来源
《JMLR: Workshop and Conference Proceedings》 |2020年第2010期|共10页
作者
Bradly Stadie; Lunjun Zhang; Jimmy Ba;
展开▼
作者单位

展开▼
收录信息
原文格式 PDF
正文语种
中图分类
关键词

相似文献

外文文献
中文文献
专利

1. Handling Sequence-dependent Setup Time Flexible Job Shop Problem with Learning and Deterioration Considerations using Evolutionary Bi-level Optimization [J] . Azzouz Ameni, Chaabani Abir, Ennigrou Meriem, Applied Artificial Intelligence . 2020,第5a8期

机译：使用进化双级优化处理序列依赖的设置时间灵活的作业店问题，并使用进化双级优化进行劣化考虑
2. A hybrid machine-learning and optimization method to solve bi-level problems [J] . Bagloee Saeed Asadi, Asadi Mohsen, Sarvi Majid, Expert Systems with Application . 2018,第APRa期

机译：解决双层问题的混合机器学习和优化方法
3. Optimizing Extreme Learning Machine via Generalized Hebbian Learning and Intrinsic Plasticity Learning [J] . Chen Chao, Jin Xinyu, Jiang Boyuan, Neural processing letters . 2019,第3期

机译：通过广义Hebbian学习和内在可塑性学习优化极限学习机
4. LIIR: Learning Individual Intrinsic Reward in Multi-Agent Reinforcement Learning [C] . Yali Du, Meng Fang, Ji Liu, Conference on Neural Information Processing Systems . 2020

机译：刘尔：在多智能经纪增强学习中学习个人内在奖励
5. Pain-Inspired Intrinsic Reward For Deep Reinforcement Learning [D] . Richardson, Trevor Woods 2018

机译：痛苦启发的深度强化学习的内在奖励
6. Modeling effects of intrinsic and extrinsic rewards on the competition between striatal learning systems [O] . Joschka Boedecker, Thomas Lampe, Martin Riedmiller 2013

机译：内在和外在奖励对纹状体学习系统之间竞争的影响
7. Joint Unsupervised Learning of Optical Flow and Egomotion with Bi-Level optimization [O] . Shihao Jiang, Dylan Campbell, Miaomiao Liu, 2020

机译：联合无监督的光学流量和双层优化的象征学习

Learning Intrinsic Rewards as a Bi-Level Optimization Problem

摘要

著录项

相似文献

相关主题

期刊订阅