首页> 中国专利> 面向兵力博弈对抗的BC-QMIX离在线多智能体行为决策建模方法

面向兵力博弈对抗的BC-QMIX离在线多智能体行为决策建模方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种面向兵力博弈对抗的BC‑QMIX离在线多智能体行为决策建模方法，包括：构建BC‑QMIX行为决策模型，包括上层的混合状态‑动作价值网络以及底层的子智能体网络，子智能体网络包括动作价值网络和行为克隆网络；设计动作选择策略，通过行为克隆网络限制训练过程中智能体的动作选择，只考虑实际出现在样本数据集中的动作，而不是考虑动作空间中所有可能的动作；进行离线和在线训练：基于已有兵力博弈对抗领域知识采集仿真样本数据集的离线预训练；在线环境下更新样本数据集，进行在线的优化训练；将训练好的BC‑QMIX行为决策模型部署在多智能体仿真环境，完成实时自主决策。该方法能够加速行为决策模型网络训练和收敛，缓解标准QMIX模型离线训练的外推误差。

著录项

公开/公告号CN115964898A

专利类型发明专利
公开/公告日2023-04-14

原文格式PDF
申请/专利权人北京航空航天大学;
展开▼

申请/专利号CN202310079296.X
发明设计人李妮;王泽;龚光红;
展开▼

申请日2023-01-18
分类号G06F30/20;
代理机构北京天汇航智知识产权代理事务所(普通合伙);
代理人陈陈数
地址 100191 北京市海淀区学院路37号
入库时间 2023-06-19 19:28:50

法律信息

法律状态公告日

法律状态信息

法律状态
2023-05-02

实质审查的生效 IPC(主分类):G06F30/20 专利申请号:202310079296X 申请日:20230118

实质审查的生效

说明书

技术领域

本发明涉及兵力博弈对抗仿真以及多智能体离线强化学习领域，更具体的说涉及一种面向兵力博弈对抗的BC-QMIX离在线多智能体行为决策建模方法。

背景技术

兵力博弈对抗仿真中如何构建兵力智能体的行为决策模型，提高兵力行为模型的智能水平、自学习能力以及博弈水平成为一个亟需解决的问题，对提高兵力博弈对抗的沉浸感，增强仿真可信度具有重要的研究价值和意义。在作战博弈游戏中通常包括单智能体对抗博弈以及多智能体博弈对抗两种类型，其中多智能体协同对抗的游戏场景居多。相对于单智能体对抗博弈场景，多智能体协同对抗的行为决策模型更加复杂，需要考虑团队内智能体行为的配合以及信息交互。

现有的自主行为决策方法可大体分为传统方法和人工智能类方法两大类，传统方法包括微分博弈法、近似动态规划、影响图法等；基于人工智能的空战决策方法大多数为数据驱动的算法，包括遗传模糊树、专家系统、深度强化学习(Deep ReinforcementLearning,DRL)等。传统基于优化理论的方法面对大规模、高维度空战决策问题时，计算时间无法满足兵力博弈对抗仿真中机动决策的实时性需求。基于人工智能技术的方法中，专家系统过分依赖领域知识，通常存在领域知识获取困难、建模工作量大等缺点。

随着深度学习、强化学习在棋牌类游戏、实时策略游戏等领域中取得的巨大成功，研究深度学习、深度强化学习在兵力博弈对抗自主决策中的应用已受到广泛的关注。多智能体深度强化学习研究起步较晚，无论是学术研究还是工程应用方面都有较多空间亟待拓展，不同类型的算法有不同的优缺点和适用的任务场景。此外，在复杂兵力博弈对抗仿真环境下，采用标准的多智能体强化学习算法进行在线行为决策网络训练时，需要实时与仿真场景进行交互，仿真样本数据采集和行为决策网络训练效率低，训练周期长。因此如果可以将强化学习行为决策网络的训练和强化学习算法与仿真环境的交互分离开，即基于静态仿真数据集采用离线方式开展预训练，再进行在线优化网络训练，最后将经过离在线结合方式训练好的行为决策网络用于仿真环境中兵力模型的实时决策，强化学习行为决策网络训练周期可以得到大大缩短，从而节省兵力博弈对抗仿真场景中兵力行为决策建模的时间成本，具有重大的工程实际意义。

发明内容

目前多智能体强化学习算法多应用于场景简单、决策变量少的游戏环境中。兵力博弈对抗仿真中的多智能体协同对抗作为典型的复杂场景，具有参战实体数量多、态势信息量大、局部可观测、决策变量多的特点。现有的典型多智能体强化学习算法应用于兵力博弈对抗仿真中的决策建模，可能会造成网络不收敛，训练周期长、训练效果差的现象。另外，由于外推误差(extrapolation error)的存在，现有标准RL算法在离线的设置下学习效果往往非常差，学到的策略无法在实际部署中取得令人满意的表现。目前离线强化学习的研究主要针对单智能体强化学习算法，缺乏针对多智能体离线强化学习算法的研究。

本发明针对现有多智能体强化学习算法在复杂兵力博弈对抗决策任务场景下仿真样本采集和行为决策网络训练效率低、训练周期长的缺点，以及目前离线强化学习研究主要针对单智能体的强化学习算法，缺少可以直接应用于多智能体的离线强化学习算法的研究现状，将基于策略约束的离线强化学习思路引入多智能体强化学习算法中，在标准QMIX网络的基础上，引入批处理约束(batch-constrained,BC)限制离线训练条件下智能体的动作选择，希望只考虑实际出现在离线数据库中的动作，而不是考虑动作空间中所有可能的动作，从而缓解标准QMIX算法在离线训练过程中外推误差带来的影响，形成基于BC-QMIX的离在线多兵力智能体行为决策建模方法，并提出了离在线结合的网络训练方式，基于静态仿真数据集先采用离线方式开展预训练，再进行在线多智能体行为决策网络优化训练，最后将经过离在线结合方式训练好的网络用于兵力博弈对抗仿真环境的实时决策，实现了加速兵力行为决策模型训练和收敛的目的。

本发明提供一种面向兵力博弈对抗的BC-QMIX离在线多智能体行为决策建模方法，包括以下步骤：

步骤一，针对兵力博弈对抗场景，构建BC-QMIX行为决策模型，包括上层的混合状态-动作价值网络以及底层的子智能体网络，每个子智能体网络包括动作价值网络和行为克隆网络；

步骤二，针对BC-QMIX行为决策模型，设计动作选择策略，通过行为克隆网络限制训练过程中智能体的动作选择，只考虑实际出现在样本数据集中的动作，而不是考虑动作空间中所有可能的动作，缩小动作价值的外推误差；

步骤三，对所述BC-QMIX行为决策模型进行离线和在线训练，包括两个阶段：基于已有兵力博弈对抗领域知识采集仿真样本数据集的离线预训练；在线环境下更新样本数据集，进行在线的优化训练；

步骤四，将训练好的BC-QMIX行为决策模型部署在兵力博弈对抗场景下多智能体仿真环境，完成实时自主决策。

进一步，所述步骤一，所述行为克隆网络G

进一步，所述步骤一，所述BC-QMIX行为决策模型的损失函数的设计考虑两部分：(1)根据目标网络和估计网络计算的Q值的差；(2)每个子智能体行为克隆网络动作估计的误差：

其中，θ表示当前网络参数，θ

进一步，所述步骤二，动作选择策略具体为：

随机生成一个(0,1)区间的概率常数ρ，若ρ<ε，则以相同的概率在动作集合中随机选择一个动作执行；否则，归一化行为克隆网络G

其中，a

进一步，所述步骤三，基于已有兵力博弈对抗领域知识采集仿真样本数据库的离线预训练，包括以下子步骤：

步骤101：初始化BC-QMIX行为决策模型的神经网络参数；

步骤102：对学习率lr、经验回放池容量B、探索程度ε、目标网络参数更新频率target_update_interval、单次训练样本量batch_size进行初始化设置；

步骤103：基于已有的领域知识设计规则采集兵力博弈对抗仿真样本数据，或从专家在回路的仿真场景中采集专家仿真样本数据，形成离线的训练仿真样本数据集，并放入经验回放池中；

步骤104：在经验回放池中随机抽取batch_size大小的仿真样本数据，用于BC-QMIX行为决策模型的网络训练：首先将各智能体观测输入到其动作价值网络中，得到仿真样本数据中动作对应的动作价值Q

其中，a′

分别得到目标网络中每个智能体的执行动作a′

其中，s′表示下一帧的全局状态，

步骤105：判断目标网络是否应该更新，如是则复制当前网络的参数，否则执行步骤106。

步骤106：判断是否满足停止训练的条件，若是则终止当前流程，否则返回步骤104。

进一步，所述步骤三，在线的优化训练包括以下子步骤：

步骤201：初始化BC-QMIX行为决策模型的神经网络，并加载离线训练后网络的参数以及超参数；

步骤202：从在线对抗态势中提取BC-QMIX网络的当前全局状态s，以及不同子智能体的观测量{o

步骤203：将不同子智能体的观测量{o

步骤204：不同子智能体执行完相应动作a

步骤205：继续执行步骤104；

步骤206：判断目标网络是否应该更新，如是则复制当前网络的参数，否则执行步骤207；

步骤207：判断是否满足停止训练的条件，若是则终止当前流程，否则返回步骤202。

进一步，所述步骤四具体为：将训练好的子智能体动作价值网络Q

本发明与现有技术相比所具有的有益效果：

1.目前基于策略约束的离线强化学习研究主要针对单智能体强化学习算法，本发明将基于策略约束的离线强化学习思路引入多智能体QMIX强化学习算法中，形成基于BC-QMIX的离在线多兵力智能体行为决策建模方法，能够加速行为模型网络训练和收敛。

2.引入批处理约束(batch-constrained)限制离在线训练条件下兵力智能体模型的动作选择，希望只考虑实际出现在离线仿真样本数据集中的动作a，而不是考虑兵力模型动作空间中所有可能的动作，缓解了标准QMIX构建行为决策模型离线训练的外推误差，提高了训练效果。

3.基于BC-QMIX构建多智能体行为决策模型进行离线学习训练，相比模仿学习对离线仿真样本数据集的质量要求更低，不要求兵力博弈对抗仿真样本数据必须由最优或高性能的专家提供，可以由次优的策略产生，能够实现新策略的探索以及自学习自演化。

附图说明

图1为BC-QMIX多兵力智能体行为决策模型结构设计；

图2为基于BC-QMIX的兵力模型行为策略训练方法；

图3为基于BC-QMIX多兵力智能体行为决策网络训练流程；

图4为运行模式下BC-QMIX多兵力智能体决策模型结构。

具体实施方式

下面结合附图对本发明进行详细描述。

一种面向兵力博弈对抗的BC-QMIX离在线多智能体行为决策建模方法，主要包括以下几个部分：

(1)面向兵力对抗博弈的BC-QMIX行为决策模型结构设计：在这部分本发明提出一种新的强化学习行为决策网络结构BC-QMIX，可以实现离线状态下的多兵力智能体行为决策建模训练，这种网络结构是在QMIX网络的基础上对每一个子智能体行为模型网络使用标准的监督学习方式来训练一个行为克隆(behaviour cloning)网络G

图1展示了用于兵力行为决策建模的BC-QMIX网络模型结构，整体结构与QMIX网络相似，包括上层的混合状态-动作价值网络Q

本发明在每个子智能体网络中引入行为克隆网络G

如图2所示在网络训练过程中，BC-QMIX网络通过目标网络和当前网络的误差值更新当前网络参数，不断优化行为决策模型。其中目标网络结构由当前网络复制得到，目标网络参数每隔固定步数复制当前网络参数得到。损失函数的设计考虑两部分：(1)根据目标网络和估计网络计算的Q值的差；(2)每个子智能体行为克隆网络动作估计的误差：

其中，θ表示当前网络参数，θ

面向兵力博弈对抗的BC-QMIX行为决策建模方法的关键是通过在标准QMIX网络结构的基础上引入动作选择约束，希望只考虑实际出现在离散兵力博弈对抗仿真数据集中的动作a，而不是考虑兵力模型可执行动作空间的所有可能动作，从而缓解标准QMIX算法在离线训练过程中外推误差带来的影响。动作约束条件的加入使得QMIX算法在离线训练条件下也能取得令人满意的结果。

(2)兵力对抗博弈行为决策模型动作选择策略设计：本发明使用基础的ε-greedy策略用来平衡探索与利用，基于监督学习训练的网络G

探索与利用之间的折中平衡一直是强化学习中很大的挑战。为了获得大量的收益，RL智能体会更倾向于选择那些在过去有效产生过收益的行为。但是为了明确哪些行为带来的收益值较大,需要对未选择过的行为进行大量的探索，智能体必须利用已有的经验来获取收益，同时也要进行试探，使得未来可以获得更好的动作选择空间。

本发明使用基础的ε-greedy策略来平衡探索与利用，随机生成一个(0,1)区间的概率常数ρ，若ρ<ε，则以相同的概率在动作集合中随机选择一个动作执行；否则，归一化行为克隆网络G

其中，

(3)基于BC-QMIX的兵力模型行为策略训练方法；

由于复杂仿真对抗时间跨度长，仿真样本数据采集困难，使用在线学习会存在训练效率低，仿真数据采样效率低的工程问题，为了充分利用已有样本数据缩短网络训练周期，本发明提出的BC-QMIX行为决策建模方法采用离在线结合的网络训练方式，如图2所示。即先通过已有兵力博弈对抗领域知识采集仿真样本数据库离线训练BC-QMIX网络得到初步策略π

(4)基于BC-QMIX的兵力博弈对抗行为决策模型训练、运行流程设计；

基于BC-QMIX算法构建行为决策模型的完整运行流程如图3所示。下面分别介绍BC-QMIX多智能体行为决策模型离线训练、在线优化训练以及训练后部署运行的具体步骤。

1)多智能体行为决策模型离线训练具体步骤：

步骤101：初始化BC-QMIX行为决策模型的神经网络参数。

步骤102：对学习率lr、经验回放池容量B、探索程度ε、目标网络参数更新频率target_update_interval、单次训练样本量batch_size等各类超参数进行初始化设置。

步骤103：基于已有的领域知识设计规则采集较优兵力博弈对抗仿真样本数据，或直接从专家在回路的仿真场景中采集专家仿真样本数据，形成离线的训练仿真样本数据集，并放入经验回放池中。

步骤104：在经验回放池中随机抽取batch_size大小的仿真样本数据，用于兵力行为决策模型的网络训练。首先将各智能体观测输入到其动作价值网络中，得到仿真样本数据中动作对应的动作价值Q

其中，a′

分别得到目标网络中每个智能体的执行动作a′

其中，s′表示下一帧的全局状态，

步骤105：判断目标网络是否应该更新，如是则复制当前网络的参数，否则执行步骤106。

步骤106：判断是否满足停止训练的条件，若是则终止当前流程，否则返回步骤104。

在经过离线网络训练后形成初步的动作选择策略，为了进一步减小外推误差带来的影响，提高网络决策质量，在在线环境下逐渐更新样本库，增加对未知状态空间的探索，进行异策略的网络训练。

2)多智能体行为决策模型在线优化训练具体步骤：

步骤201：初始化BC-QMIX行为决策模型的神经网络，并加载离线训练后网络的参数以及超参数。

步骤202：从在线对抗态势中提取BC-QMIX网络的当前全局状态s，以及不同子智能体的观测量{o

步骤203：将不同子智能体的观测量{o

步骤204：不同子智能体执行完相应动作a

步骤205：继续执行步骤104。

步骤206：判断目标网络是否应该更新，如是则复制当前网络的参数，否则执行步骤207。

步骤207：判断是否满足停止训练的条件，若是则终止当前流程，否则返回步骤202。

3)多智能体行为决策模型部署运行流程：

多兵力智能体行为决策模型训练结束后，可将训练好的子智能体动作价值网络Q

基于BC-QMIX的多兵力智能体行为决策模型部署运行模式下整体结构如图4所示。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种面向非完全信息条件下军事对抗博弈的智能决策方法 [P] . 中国专利： CN112329348A . 2021-02-05
2. 面向多智能体同步博弈的建模方法及动作预测系统 [P] . 中国专利： CN108764453B . 2021-10-01
3. An intelligent in-store shopping platform for customers and retailers. With this, customers can select, scan, and pay for the products via smartphones and check-out of the store with minimal human intervention. The system uses hi-end technologies such as artificial intelligence for anti-shoplifting, automated decision making, Computer Vision, weighing techniques, electronic circuitry and RFID. The framework uses intricate IoT (Internet of Things) technology and self-learning algorithms, big data analytics, customer engagement and pattern analysis using data extraction and knowledge mining. [P] . AU2019100428A4 . 2019-06-27

机译：一个面向客户和零售商的智能店内购物平台。这样一来，客户可以通过智能手机选择商品，进行扫描并为商品付款，并在不需人工干预的情况下结帐。该系统使用高端技术，例如用于反盗窃的人工智能，自动决策，计算机视觉，称重技术，电子电路和RFID。该框架使用复杂的IoT（物联网）技术和自学习算法，大数据分析，客户参与以及使用数据提取和知识挖掘的模式分析。
4. Motor vehicle impact anticipating method, involves modeling time-space behavior of movable body, and estimating space occupied by movable body during specific time based on time-space behavior model [P] . 法国专利： FR2864673A1 . 2005-07-01

机译：机动车碰撞预测方法，涉及对可移动体的时空行为进行建模，并基于时空行为模型估计特定时间段内可移动体所占据的空间。
5. Software behavior modeling device, software behavior modeling method, software behavior verification device, and software behavior verification method [P] . 美国专利： US8407799B2 . 2013-03-26

机译：软件行为建模设备，软件行为建模方法，软件行为验证设备和软件行为验证方法