Learning adversarial policy in multiple scenes environment via multi-agent reinforcement learning

Li Yang; Wang Xinzhi; Wang Wei; Zhang Zhenyu; Wang Jianshu; Luo Xiangfeng; Xie Shaorong

首页> 外文期刊>Connection Science >Learning adversarial policy in multiple scenes environment via multi-agent reinforcement learning

【24h】

Learning adversarial policy in multiple scenes environment via multi-agent reinforcement learning

机译：通过多功能钢筋学习在多个场景环境中学习对抗性政策

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

Learning adversarial policy aims to learn behavioural strategies for agents with different goals, is one of the most significant tasks in multi-agent systems. Multi-agent reinforcement learning (MARL), as a state-of-the-art learning-based model, employs centralised or decentralised control methods to learn behavioural strategies by interacting with environments. It suffers from instability and slowness in the training process. Considering that parallel simulation or computation is an effective way to improve training performance, we propose a novel MARL method called Multiple scenes multi-agent proximal Policy Optimisation (MPO) in this paper. In MPO, we first simulate multiple parallel scenes in the training environment. Multiple policies control different agents in the same scene, and each policy also controls several identical agents from multiple scenes. Then, we expand proximal policy optimisation (PPO) with an improved actor-critic network, ensuring the stability of training in multi-agent tasks. The actor network only uses local information for decision making, and the critic network uses global information for training. Finally, effective training trajectories are computed with two criteria from multiple parallel scenes rather than single to accelerate the learning process. We evaluate our approach in two simulated 3D environments, one of which is Unity's official open-source soccer game, and the other is unmanned surface vehicles (USVs) built by Unity. Experiments demonstrate that MPO converges more stable and faster than benchmark methods in model training, and demonstrates excellent adversarial policy compared with benchmark models.

机译：学习对抗性政策旨在学习具有不同目标的代理的行为策略，是多助理系统中最重要的任务之一。多智能体增强学习（Marl）作为基于最先进的学习的模型，采用集中或分散的控制方法来通过与环境进行交互来学习行为策略。训练过程中可能存在不稳定和缓慢。考虑到并行仿真或计算是提高培训性能的有效方法，我们提出了一种新的MARL方法，称为多个场景多代理近端策略优化（MPO）。在MPO中，我们首先在培训环境中模拟多个并行场景。多个策略在同一场景中控制不同的代理，每个策略还可以从多个场景中控制多个相同的代理。然后，我们通过改进的演员 - 批评网络扩展近端策略优化（PPO），确保在多代理任务中培训的稳定性。演员网络仅使用决策的本地信息，批评网络使用全球信息进行培训。最后，有效的训练轨迹使用来自多个并行场景的两个标准而不是单个标准来加速学习过程。我们在两个模拟3D环境中评估我们的方法，其中一个是Unity的官方开源足球比赛，另一个是由Unity构建的无人面车辆（USV）。实验表明，与模型训练中的基准方法，MPO会收敛更稳定，更快，并与基准模型相比，展示了优异的对抗政策。

著录项

来源
《Connection Science》 |2021年第3期|407-426|共20页
作者
Li Yang; Wang Xinzhi; Wang Wei; Zhang Zhenyu; Wang Jianshu; Luo Xiangfeng; Xie Shaorong;
展开▼
作者单位

Shanghai Univ Sch Comp Engn & Sci Shanghai Peoples R China;

Shanghai Univ Sch Comp Engn & Sci Shanghai Peoples R China;

Shanghai Univ Sch Comp Engn & Sci Shanghai Peoples R China;

Shanghai Univ Sch Comp Engn & Sci Shanghai Peoples R China;

Shanghai Univ Sch Comp Engn & Sci Shanghai Peoples R China;

Shanghai Univ Sch Comp Engn & Sci Shanghai Peoples R China;

Shanghai Univ Sch Comp Engn & Sci Shanghai Peoples R China;

展开▼
收录信息
原文格式 PDF
正文语种 eng
中图分类
关键词
Adversarial policy; multiple scenes; multi-agent systems; multi-agent reinforcement learning; proximal policy optimisation;

机译：对抗政策;多种场景;多助理系统;多智能经纪增强学习;近端政策优化;

相似文献

外文文献
中文文献
专利

1. Learning adversarial attack policies through multi-objective reinforcement learning [J] . Javier Garcia, Ruben Majadas, Fernando Fernandez Engineering Applications of Artificial Intelligence . 2020,第Nova期

机译：通过多目标强化学习学习对抗性攻击政策
2. Markov-game modeling of cyclist-pedestrian interactions in shared spaces: A multi-agent adversarial inverse reinforcement learning approach [J] . Alsaleh Rushdi, Sayed Tarek Transportation research . 2021,第Jula期

机译：广播空间中骑自行车者行人互动的马尔可夫 - 游戏模型
3. Adversarial environment reinforcement learning algorithm for intrusion detection [J] . Caminero Guillermo, Lopez-Martin Manuel, Carro Belen Computer networks . 2019,第AUGa4期

机译：对抗检测的对抗环境强化学习算法
4. Low latency adversarial threats avoidance, navigation in 3D point cloud environment via multi-agent reinforcement learning in a correspondence 2D floorplan [C] . Adrian Mai, Mark Bilinski, Raymond Provost Conference on Artificial Intelligence and Machine Learning for Multi-Domain Operations Applications . 2021

机译：低延迟对冲威胁避免，通过多档强化学习在通信2D平面图中的三维点云环境中导航
5. On Deep Reinforcement Learning for Games: Generalization of Deep Q-Learning with Multiple Policy Heads [D] . Boucher, Mathieu. 2020

机译：关于游戏的深度加固学习：多重政策头部深度Q学的泛化
6. Multi-agent reinforcement learning with approximate model learning for competitive games [O] . Young Joon Park, Yoon Sang Cho, Seoung Bum Kim 2012

机译：多主体强化学习和近似模型学习的竞技游戏
7. Local Policy-sharing Systems for Multi-agent Reinforcement Learning-An Approach from the Learning Classifier System [O] . Hiroyasu INOUE, Katsunori SHIMOHARA, Osamu KATAI 2006

机译：用于多智能经纪增强学习的地方策略共享系统 - 来自学习分类器系统的方法

Learning adversarial policy in multiple scenes environment via multi-agent reinforcement learning

摘要

著录项

相似文献

相关主题

期刊订阅