QL_2, a Simple Reinforcement Learning Scheme for Two-Player Zero-sum Markov Games

机译：QL_2，两个玩家零和马尔可夫游戏的简单加强学习方案

获取原文

获取外文期刊封面目录资料

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

Markov games are a framework which formalises n-agent reinforcement learning. For instance, Littman proposed the minimax-Q algorithm to model two-agent zero-sum problems. This paper proposes a new simple algorithm in this framework, QL_2, and compares it to several standard algorithms (Q-learning, Minimax and minimax-Q). Experiments show that QL_2 converges to optimal mixed policies, as minimax-Q, while using a surprisingly simple and cheap gradient-based updating rule.

机译：马尔可夫游戏是一个正规的框架，该框架是N-Agent强化学习。例如，Littman提出了ModeAx-Q算法来模拟双代理零和问题。本文提出了一种新的简单算法，QL_2，并将其与几个标准算法（Q-Learning，Minimax和Minimax-Q）进行比较。实验表明，QL_2将收敛到最佳的混合策略，作为MIMIMAX-Q，同时使用令人惊讶的简单和基于廉价的梯度的更新规则。

著录项

来源
《European Symposium on Artificial Neural Networks》|2008年||共6页
会议地点
作者

展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类一般性问题;
关键词

相似文献

外文文献
中文文献
专利

1. LL_2, a simple reinforcement learning scheme for two-player zero-sum Markov games [J] . Benoit Frenay, Marco Saerens Neurocomputing . 2009,第7a9期

机译：LL_2，一种用于两人零和马尔可夫游戏的简单强化学习方案
2. Online concurrent reinforcement learning algorithm to solve two-player zero-sum games for partially unknown nonlinear continuous-time systems [J] . Yasini Sholeh, Karimpour Ali, Sistani Mohammad-Bagher Naghibi, International Journal of Adaptive Control and Signal Processing . 2015,第4期

机译：在线并发强化学习算法，用于求解部分未知的非线性连续时间系统的两人零和游戏
3. The Lagging Anchor Algorithm: Reinforcement Learning in Two-Player Zero-Sum Games With Imperfect Information [J] . Fredrik A. Dahl Machine Learning . 2002,第1期

机译：滞后锚算法：具有不完善信息的两人零和游戏的强化学习
4. QL_2, a Simple Reinforcement Learning Scheme for Two-Player Zero-sum Markov Games [C] . European Symposium on Artificial Neural Networks . 2008

机译：QL_2，两个玩家零和马尔可夫游戏的简单加强学习方案
5. Multi-agent reinforcement learning in Markov games. [D] . Sheppard, John Wilbur. 1997

机译：马尔可夫游戏中的多主体强化学习。
6. Spike-based Decision Learning of Nash Equilibria in Two-Player Games [O] . Johannes Friedrich, Walter Senn 2012

机译：两人游戏中基于纳什均衡的基于峰值的决策学习
7. A zero-sum Markov Defender-attacker Game for Modeling False Pricing in Smart Grids and its Solution by Multi-agent Reinforcement Learning [O] . Daogui Tang, Yi-Ping Fang, Enrico Zio 2019

机译：一种零级马尔可夫防御者攻击者，用于通过多智能经纪增强学习在智能电网和解决方案中建模虚假定价

QL_2, a Simple Reinforcement Learning Scheme for Two-Player Zero-sum Markov Games

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅