基于改进强化学习的多智能体追逃对抗

薛雅丽; 叶金泽; 李寒雁

首页> 中文期刊> 《浙江大学学报：工学版》 >基于改进强化学习的多智能体追逃对抗

基于改进强化学习的多智能体追逃对抗

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

针对多智能体追逃问题,提出基于优先经验回放和解耦奖励函数的多智能体强化学习算法.将多智能体深度确定性策略梯度算法(MADDPG)和双延迟-确定策略梯度算法(TD3)相结合,提出多智能体双延迟-确定策略梯度算法(MATD3).针对多智能体追逃问题中奖励函数存在大量稀疏奖励的问题,提出利用优先经验回放方法确定经验优先度以及采样高价值经验.设计解耦奖励函数,将奖励函数分为个体奖励和联合奖励以最大化全局奖励和局部奖励,提出DEPER-MATD3算法.基于此算法设计仿真实验,并与其他算法对比,实验结果表明,该算法有效解决了过估计问题,且耗时相比MATD3算法有所减少.在解耦奖励函数环境下该算法训练的追击者的全局平均奖励升高,追击者有更大的概率追击到逃逸者.

著录项

来源
《浙江大学学报：工学版》 |2023年第8期|1479-1486|共9页
作者
薛雅丽; 叶金泽; 李寒雁;
展开▼
作者单位

南京航空航天大学自动化学院;

展开▼
原文格式 PDF
正文语种 chi
中图分类智能机器人;
关键词
追逃对抗; 强化学习; 经验回放; 多智能体; 奖励函数;

相似文献

中文文献
外文文献
专利

1. 基于多智能体强化学习的轨道追逃博弈方法 [J] . 许旭升 ,党朝辉 ,宋斌 . 上海航天(中英文) . 2022,第2期
2. 基于终端诱导强化学习的航天器轨道追逃博弈 [J] . 耿远卓 ,袁利 ,黄煌 . 自动化学报 . 2023,第5期
3. 《基于多智能体强化学习的大规模无人机集群对抗》撤稿声明 [J] . 系统仿真学报编辑部 . 系统仿真学报 . 2022,第6期
4. 基于深度强化学习的多智能体对抗策略算法 [J] . 龚慧雯 ,王桐 ,陈立伟 . 应用科技 . 2022,第5期
5. 基于多智能体强化学习的无人机集群攻防对抗策略研究 [J] . 轩书哲 ,柯良军 . 无线电工程 . 2021,第5期
6. 基于强化学习的智能体避障研究 [C] . YING Xiao-kun ,应小昆 ,PANG Yi . 第九届中国多智能体系统与控制会议（MASC2013） . 2014
7. 多智能体追逃问题研究 [A] . 陈迎春 . 2007

基于改进强化学习的多智能体追逃对抗

摘要

著录项

相似文献

相关主题

期刊订阅