Plan-based reward shaping for multi-agent reinforcement learning

Devlin Sam; Kudenko Daniel

首页> 外文期刊>The Knowledge Engineering Review >Plan-based reward shaping for multi-agent reinforcement learning

【24h】

Plan-based reward shaping for multi-agent reinforcement learning

机译：基于计划的奖励成型，用于多主体强化学习

获取原文

获取原文并翻译 | 示例

获取外文期刊封面封底 >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

Recent theoretical results have justified the use of potential-based reward shaping as a way to improve the performance of multi-agent reinforcement learning (MARL). However, the question remains of how to generate a useful potential function.

机译：最近的理论结果证明使用基于电位的奖励塑造作为一种改进多主体强化学习（MARL）性能的方法是合理的。但是，仍然存在如何产生有用的潜在功能的问题。

著录项

来源
《The Knowledge Engineering Review》 |2016年第1期|44-58|共15页
作者
Devlin Sam; Kudenko Daniel;
展开▼
作者单位

Univ York, Dept Comp Sci, York YO10 5GH, N Yorkshire, England;

Univ York, Dept Comp Sci, York YO10 5GH, N Yorkshire, England;

展开▼
收录信息
原文格式 PDF
正文语种 eng
中图分类
关键词

相似文献

外文文献
中文文献
专利

1. Reward design for driver repositioning using multi-agent reinforcement learning [J] . Shou Zhenyu, Di Xuan Transportation research . 2020,第Octa期

机译：利用多功能钢筋学习促进驾驶员重新定位的奖励设计
2. Multi-Agent Cooperation Based on Reinforcement Learning with Internal Reward in Maze Problem [J] . Fumito UWANO, Naoki TATEBE, Yusuke TAJIMA, SICE Journal of Control, Measurement, and System Integration (SICE JCMSI) . 2018,第4期

机译：基于迷宫问题的内部奖励的强化学习多功能协作
3. Rationality of Reward Sharing in Multi-agent Reinforcement Learning [J] . Kazuteru MIYAZAKI, Shigenobu KOBAYASHI New Generation Computing . 2001,第2期

机译：奖励共享在多主体强化学习中的合理性
4. Plan-based reward shaping for reinforcement learning [C] . Grzes Marek, Kudenko Daniel International IEEE Conference on Intelligent Systems . 2008

机译：基于计划的加固学习奖励塑造
5. Reward Prediction Errors Shape Memory during Reinforcement Learning [D] . Rouhani, Nina. 2020

机译：奖励预测错误在加固学习期间形状内存
6. Reinforcement Q-Learning Control With Reward Shaping Function for Swing Phase Control in a Semi-active Prosthetic Knee [O] . Yonatan Hutabarat, Kittipong Ekkachai, Mitsuhiro Hayashibe, 2020

机译：增强Q学习控制在半主动假肢膝关节中为摆动相位控制的奖励塑造功能
7. Extending Hierarchical Reinforcement Learning to Continuous-Time, Average-Reward, and Multi-Agent Models [O] . Mohammad Ghavamzadeh, Sridhar Mahadevan, Rajbala Makar 2007

机译：将分层强化学习扩展到连续时间，平均奖励和多智能体模型
8. Extending Hierarchical Reinforcement Learning to Continuous-Time, Average-Reward, and Multi-Agent Models [R] . Ghavamzadeh, M. , Mahadevan, S. , Makar, R. 2003

机译：将分层强化学习扩展到连续时间，平均奖励和多智能体模型

Plan-based reward shaping for multi-agent reinforcement learning

摘要

著录项

相似文献

相关主题

期刊订阅