基于值分布的多智能体分布式深度强化学习算法

陈妙云; 王雷; 盛捷

首页> 中文期刊>计算机系统应用 >基于值分布的多智能体分布式深度强化学习算法

基于值分布的多智能体分布式深度强化学习算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

近年来深度强化学习在一系列顺序决策问题中取得了巨大的成功,使其为复杂高维的多智能体系统提供有效优化的决策策略成为可能.然而在复杂的多智能体场景中,现有的多智能体深度强化学习算法不仅收敛速度慢,而且算法的稳定性无法保证.本文提出了基于值分布的多智能体分布式深度确定性策略梯度算法(multi-agent distributed distributional deep deterministic policy gradient, MA-D4PG),将值分布的思想引入到多智能体场景中,保留预期回报完整的分布信息,使智能体能够获得更加稳定有效的学习信号;引入多步回报,提高算法的稳定性;引入了分布式数据生成框架将经验数据生成和网络更新解耦,从而可以充分利用计算资源,加快算法的收敛.实验证明,本文提出的算法在多个连续/离散控制的多智能体场景中均具有更好的稳定性和收敛速度,并且智能体的决策能力也得到了明显的增强.

著录项

来源
《计算机系统应用》|2022年第1期|145-151|共7页
作者
陈妙云; 王雷; 盛捷;
展开▼
作者单位

中国科学技术大学信息科学与技术学院,合肥230027;

展开▼
原文格式 PDF
正文语种 chi
中图分类计算技术、计算机技术;
关键词
多智能体; 深度强化学习; 值分布; 多步回报; 分布式数据生成;
入库时间 2022-08-21 05:30:23

相似文献

中文文献
外文文献
专利

1. 基于多智能体深度强化学习的分布式干扰协调 [J] . 刘婷婷 ,罗义南 ,杨晨阳 . 通信学报 . 2020,第007期
2. 一种基于多智能体的分布式深度神经网络算法 [J] . 王闯 ,沈苏彬 . 计算机技术与发展 . 2021,第012期
3. 基于多智能体强化学习的分布式停电检修管控系统设计 [J] . 齐蓬勃 ,李凡 ,高雯 . 电子设计工程 . 2021,第023期
4. 基于多智能体强化学习的无人车分布式路径规划方法 [J] . 张立雄 ,郭艳 ,李宁 . 电声技术 . 2021,第003期
5. 基于SAC的多智能体深度强化学习算法 [J] . 肖硕 ,黄珍珍 ,张国鹏 . 电子学报 . 2021,第009期
6. 多智能体合作环境下的分布式强化学习 [C] . Fu Bo ,傅波 ,Chen Xin . 第十届中国智能机器人会议 . 2013
7. 基于多智能体值分解深度强化学习的多智能体协作算法研究 [A] . 厉子凡 . 2021

基于值分布的多智能体分布式深度强化学习算法

摘要

著录项

相似文献

相关主题

期刊订阅