元博弈平衡和多Agent强化学习的MetaQ算法

王皓; 高阳

首页> 中文期刊>计算机研究与发展 >元博弈平衡和多Agent强化学习的MetaQ算法

元博弈平衡和多Agent强化学习的MetaQ算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

多Agent强化学习(MARL)是强化学习(RL)在多Agent环境中的推广.其中,NashQ学习算法是一个里程碑式的贡献.然而NashQ存在着3点不足:①Nash平衡的"混合策略"思想在MARL中的意义不明确;②一个博弈的Nash平衡可能不是Pareto最优的;③Nash平衡的计算比较复杂.这3点不足都来源于"Agent是Nash理性的"这一假设.一个称为"MetaQ"的多Agent Q学习算法以元博弈理论为基础,通过改变Agent的理性来避免所有的这些不足.研究证明,MetaQ算法具有很好的理论解释和实验性能.

著录项

来源
《计算机研究与发展》|2006年第z1期|137-141|共5页
作者
王皓; 高阳;
展开▼
作者单位

南京大学软件新技术国家重点实验室,南京,210093;

南京大学软件新技术国家重点实验室,南京,210093;

展开▼
原文格式 PDF
正文语种 chi
中图分类人工智能理论;
关键词
强化学习; 多Agent系统; 元博弈; MetaQ;
入库时间 2023-07-25 09:27:37

相似文献

中文文献
外文文献
专利

1. 一种基于团队马尔可夫博弈的多agent协同强化学习算法 [J] . 王长缨 ,陈文伟 ,姚莉 . 复旦学报：自然科学版 . 2004,第5期
2. 伙伴选择问题的多Agent强化学习演化博弈方法 [J] . 张颖 ,李佳 . 沈阳工业大学学报 . 2009,第005期
3. 基于后悔值的多Agent冲突博弈强化学习模型 [J] . 肖正 ,张世永 . 软件学报 . 2008,第011期
4. 基于随机博弈的Agent协同强化学习方法 [J] . 王长缨 ,尹晓虎 ,鲍翊平 . 计算机工程与科学 . 2006,第002期
5. 随机博弈框架下的多agent强化学习方法综述 [J] . 宋梅萍 ,顾国昌 ,张国印 . 控制与决策 . 2005,第10期
6. 元博弈平衡和多Agent强化学习的MetaQ算法 [C] . 王皓 ,高阳 . 第一届Agent理论与应用学术会议 . 2006
7. 联合博弈框架下的多Agent强化学习算法研究 [A] . 黄付亮 . 2011

元博弈平衡和多Agent强化学习的MetaQ算法

摘要

著录项

相似文献

相关主题

期刊订阅