公开/公告号CN113822409A
专利类型发明专利
公开/公告日2021-12-21
原文格式PDF
申请/专利权人 中国电子科技集团公司第五十四研究所;
申请/专利号CN202111110979.4
申请日2021-09-18
分类号G06N3/02(20060101);G06N3/08(20060101);G06K9/62(20060101);
代理机构13124 河北东尚律师事务所;
代理人王文庆
地址 050081 河北省石家庄市中山西路589号第五十四所电子战专业部
入库时间 2023-06-19 13:46:35
法律状态公告日
法律状态信息
法律状态
2022-12-06
授权
发明专利权授予
技术领域
本发明涉及一种基于异构多智能体强化学习的多无人机协同突防方法,属于多智能体深度强化学习领域。
背景技术
多无人机协同突防的特点在于不同功能的多无人机通过相互配合和掩护完成对于敌方重点目标的攻击。同时,敌方重点目标附近存在机动防御力量,多无人机需要能能够在敌方的拦截下协同完成攻击任务。
公开号为CN111274740A的专利提出了一种多飞行器协同突防轨迹优化设计方法,该方法由于缺少对敌方防御力量的考虑,难以应对复杂多变的战场环境。公开号为CN112198892A的专利提出了一种多无人机智能协同突防对抗方法,该方法中各无人机具有相同的功能,不能满足复杂突防任务中不同功能无人机协同突防的要求,此外,由于敌方防御力量的策略不具有人工智能,无法实现策略的优化,从而无法促进多无人机协同突防策略的不断优化和提高。
发明内容
为了解决当前多无人机协同突防方法的不足,本发明提出了一种基于异构多智能体强化学习的多无人机协同突防方法,可使不同功能的多无人机能够协同达成突防任务。
为了实现上述目的,本发明采用的技术方案为:
一种基于异构多智能体强化学习的无人机协同突防方法,包括以下步骤:
步骤1:构建包含红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的牵引性博弈训练场景;蓝方攻击智能体攻击红方基地,红方拦截智能体拦截蓝方攻击智能体;蓝方拦截智能体拦截红方攻击智能体;分别构建红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的马尔科夫模型;
步骤2:分别构建红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的神经网络;
步骤3:对红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的状态进行更新:
步骤4:对红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的神经网络进行训练:
步骤5:构建包含红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的结果描述性博弈训练场景;
步骤6:迁移红方拦截智能体的策略神经网络、评价神经网络、目标策略神经网络和目标评价神经网络到结果描述性博弈训练场景;
步骤7:迁移蓝方拦截智能体的策略神经网络、评价神经网络、目标策略神经网络和目标评价神经网络到结果描述性博弈训练场景;
步骤8:迁移蓝方攻击智能体的策略神经网络、评价神经网络、目标策略神经网络和目标评价神经网络到结果描述性博弈训练场景;
步骤9:执行步骤3,然后转到步骤10;
步骤10:执行步骤4,然后转到步骤11;
步骤11:构建包含红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的评估性博弈场景;
步骤12:构建基于规则的红方拦截智能体:
步骤13:迁移蓝方拦截智能体的策略神经网络、评价神经网络、目标策略神经网络和目标评价神经网络到评估性博弈场景;
步骤14:迁移蓝方攻击智能体的策略神经网络、评价神经网络、目标策略神经网络和目标评价神经网络到评估性博弈场景;
步骤15:进行多轮测试,对学习效果进行验证,如果蓝方胜率超过门限η,则实现无人机协同突防;如果蓝方胜率低于门限η,则返回步骤4继续训练。
进一步的,步骤1中,分别构建红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的马尔科夫模型的具体方式为:
步骤1-1:构建红方拦截智能体的马尔科夫模型(S
结合红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体信息,设定红方拦截智能体的输入状态为:
S
其中x
设定红方拦截智能体的输出动作为A
其中
定义牵引性奖励函数R
利用红方拦截智能体与蓝方攻击智能体位置的距离,得到牵引性奖励函数,表示红方拦截智能体在当前状态下选取动作所获得的反馈值;牵引性奖励函数R
设定学习衰减因子:
设定学习衰减因子0<γ
步骤1-2:构建蓝方拦截智能体的马尔科夫模型(S
结合红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体信息,设定蓝方拦截智能体的输入状态为:
S
其中x
设定蓝方拦截智能体的输出动作为A
其中
定义牵引性奖励函数R
利用蓝方拦截智能体与红方拦截智能体位置的距离,得到牵引性奖励函数,表示蓝方拦截智能体在当前状态下选取动作所获得的反馈值;牵引性奖励函数R
设定学习衰减因子:
设定学习衰减因子0<γ
步骤1-3:构建蓝方攻击智能体的马尔科夫模型(S
结合红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体信息,设定蓝方攻击智能体的输入状态为:
S
其中x
设定蓝方攻击智能体的输出动作为A
其中
定义牵引性奖励函数R
利用蓝方攻击智能体与红方基地位置的距离,得到牵引性奖励函数,表示蓝方攻击智能体在当前状态下选取动作所获得的反馈值;牵引性奖励函数R
设定学习衰减因子:
设定学习衰减因子0<γ
进一步的,步骤2的具体方式为:
步骤2-1:构建红方拦截智能体的策略神经网络μ
策略神经网络μ
A
步骤2-2:构建红方拦截智能体的评价神经网络Q
评价神经网络Q
其中,k为求和变量,E[·]为数学期望;s
步骤2-3:构建红方拦截智能体的目标策略神经网络μ
目标策略神经网络μ
步骤2-4:构建红方拦截智能体的目标评价神经网络Q
目标策略神经网络Q
步骤2-5:构建蓝方拦截智能体的策略神经网络μ
策略神经网络μ
A
步骤2-6:构建蓝方拦截智能体的评价神经网络Q
评价神经网络Q
其中,k为求和变量,E[·]为数学期望;s
步骤2-7:构建蓝方拦截智能体的目标策略神经网络μ
目标策略神经网络μ
步骤2-8:构建蓝方拦截智能体的目标评价神经网络Q
目标策略神经网络Q
步骤2-9:构建蓝方攻击智能体的策略神经网络μ
策略神经网络μ
A
步骤2-10:构建蓝方攻击智能体的评价神经网络Q
评价神经网络Q
其中,k为求和变量,E[·]为数学期望;s
步骤2-11:构建蓝方攻击智能体的目标策略神经网络μ
目标策略神经网络μ
步骤2-12:构建蓝方攻击智能体的目标评价神经网络Q
目标评价神经网络Q
进一步的,步骤3的具体方式为:
结合红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体信息,得到红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的输入状态分别为:
进一步的,步骤4的具体方式为:
步骤4-1:设置最大训练回合数为E,每回合最大步长为T,经验池容量为M,策略神经网络和评价神经网络的学习率分别为α
步骤4-2:随机初始化状态空间S
步骤4-3:在状态S
其中,
步骤4-4:在状态S
其中,
步骤4-5:在状态S
其中,
步骤4-6:红方拦截智能体执行动作A
步骤4-7:判断经验池当前存储的经验条数N是否达到批量训练量M,若N<M,则继续执行步骤4-3、步骤4-4和步骤4-5;若当前存储经验条数等于经验池容量时,新经验将覆盖经验池中存在最久的经验,此时进入步骤4-8、步骤4-9和步骤4-10;
步骤4-8:红方拦截智能体从经验池中随机抽取样本进行学习,样本量为M,学习过程为:
其中y
步骤4-9:根据最小损失函数更新策略神经网络:
其中L为损失函数
步骤4-10:更新策略梯度:
其中,
步骤4-11:对红方拦截智能体的策略神经网络和评价神经网络的参数进行更新:
其中τ
步骤4-12:蓝方拦截智能体从经验池中随机抽取样本进行学习,样本量为M,学习过程为:
其中
步骤4-13:根据最小损失函数更新策略神经网络:
其中L
步骤4-14:更新策略梯度:
其中,
步骤4-15:对蓝方拦截智能体的策略神经网络和评价神经网络的参数进行更新:
其中τ
步骤4-16:蓝方攻击智能体从经验池中随机抽取样本进行学习,样本量为M,学习过程为:
其中
步骤4-17:根据最小损失函数更新策略神经网络:
其中L
步骤4-18:更新策略梯度:
其中,
步骤4-19:对蓝方拦截智能体的策略神经网络和评价神经网络的参数进行更新:
其中τ
步骤4-20:计算目标相对位置:
红方拦截智能体与蓝方拦截智能体的距离为:
红方拦截智能体与蓝方攻击智能体的距离为:
蓝方攻击智能体与红方基地的距离为:
步骤4-21:对博弈结果进行判定:
设定门限ε;
当d
当d
当d
当d
当d
当d
当d
步骤4-22:当d
当iStep+1 当iStep+1≥iStep_Max时,执行步骤4-15; iStep_Max为最大迭代步长; 步骤4-23:对回合数e进行判定,若e<E,则返回至步骤4-2;若e=E,则保存神经网络参数。 进一步的,步骤5的具体方式为: 步骤5-1:与步骤1-1相同,只是将红方拦截智能体的牵引性奖励函数R 当d 当d 当d 当d 当d 当d 当d 当d 当d 步骤5-2:与步骤1-2相同,只是将蓝方拦截智能体的牵引性奖励函数R 当d 当d 当d 当d 当d 当d 当d 当d 当d 步骤5-3:与步骤1-3相同,只是将蓝方攻击智能体的牵引性奖励函数R 当d 当d 当d 当d 当d 当d 当d 当d 当d 步骤11的具体方式与步骤5相同。 进一步的,步骤12的具体方式为: 红方拦截智能体的横向动作
红方拦截智能体的纵向动作
其中mod表示取余。 本发明的有益效果在于: (1)本发明方法通过自博弈的方式实现多无人机协同突防的策略生成。本发明提出了一种异步模仿深度确定性策略梯度(Asynchronous Imitation Deep DeterministicPolicy Gradient,AIDDPG)框架,通过多无人机突防和防御的博弈数据,利用神经网络和强化学习对于数据的探索和利用能力,能够自主生成最优博弈策略; (2)本发明基于迁移学习和阶段学习,先后基于牵引性博弈训练场景和结果描述性博弈训练场景的博弈对战,首先使得智能体能够通过基于人类经验知识的牵引性博弈训练场景具有一定的策略产生能力,提升了神经网络的收敛速度,然后将训练好的智能体迁移到结果描述性博弈训练场景,通过智能体之间的自博弈使得智能体能够在人类经验知识的基础上进一步提升博弈策略效果。 附图说明 图1为本发明实施例方法的流程图。 图2为本发明实施例中异步模仿深度确定性策略梯度框架的结构图。 图3为本发明实施例中的博弈场景示意图。 图4为本发明实施例中单无人机的算法结构图。 图5为本发明实施例在验证性博弈场景中多无人机协同突防的轨迹展示图。 具体实施方式 下面结合附图和具体实施方式对本发明做进一步说明。 一种基于异构多智能体强化学习的多无人机协同突防方法,其整体流程如图1所示,框架结构如图2所示。具体包括如下步骤: 步骤1:构建包含红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的牵引性博弈训练场景,如图3所示。红方拦截智能体拦截蓝方攻击智能体攻击红方基地;蓝方拦截智能体拦截红方攻击智能体;蓝方攻击智能体攻击红方基地。分别构建红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的马尔科夫模型。 步骤1-1:构建红方拦截智能体的马尔科夫模型(S 结合红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体信息,设定红方拦截智能体的输入状态为: S 其中x 设定红方拦截智能体的输出动作为A
其中 定义牵引性奖励函数R 利用红方拦截智能体与蓝方攻击智能体位置的距离,得到牵引性奖励函数,表示红方拦截智能体在当前状态下选取动作所获得的反馈值; 设定牵引性奖励函数R
设定学习衰减因子: 设定学习衰减因子0<γ 步骤1-2:构建蓝方拦截智能体的马尔科夫模型(S 结合红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体信息,设定蓝方拦截智能体的输入状态为: S 其中x 设定蓝方拦截智能体的输出动作为A
其中 定义牵引性奖励函数R 利用蓝方拦截智能体与红方拦截智能体位置的距离,得到牵引性奖励函数,表示蓝方拦截智能体在当前状态下选取动作所获得的反馈值; 设定牵引性奖励函数R
设定学习衰减因子: 设定学习衰减因子0<γ 步骤1-3:构建蓝方攻击智能体的马尔科夫模型(S 结合红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体信息,设定蓝方攻击智能体的输入状态为: S 其中x 设定蓝方攻击智能体的输出动作为A
其中 定义牵引性奖励函数R 利用蓝方攻击智能体与红方基地位置的距离,得到牵引性奖励函数,表示蓝方攻击智能体在当前状态下选取动作所获得的反馈值; 设定牵引性奖励函数R
设定学习衰减因子: 设定学习衰减因子0<γ 步骤2:分别构建红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的神经网络,如图4所示。 步骤2-1:构建红方拦截智能体的策略神经网络: 策略神经网络μ A 步骤2-2:构建红方拦截智能体的评价神经网络: 评价神经网络Q
其中,k为求和变量,E[·]为数学期望;s 步骤2-3:构建红方拦截智能体的目标策略神经网络: 目标策略神经网络μ 步骤2-4:构建红方拦截智能体的目标评价神经网络: 目标评价神经网络Q 步骤2-5:构建蓝方拦截智能体的策略神经网络: 策略神经网络μ A 步骤2-6:构建蓝方拦截智能体的评价神经网络: 评价神经网络Q
其中,k为求和变量,E[·]为数学期望;s 步骤2-7:构建蓝方拦截智能体的目标策略神经网络: 目标策略神经网络μ 步骤2-8:构建蓝方拦截智能体的目标评价神经网络: 目标评价神经网络Q 步骤2-9:构建蓝方攻击智能体的策略神经网络: 策略神经网络μ A 步骤2-10:构建蓝方攻击智能体的评价神经网络: 评价神经网络Q
其中,k为求和变量,E[·]为数学期望;s 步骤2-11:构建蓝方攻击智能体的目标策略神经网络: 目标策略神经网络μ 步骤2-12:构建蓝方攻击智能体的目标评价神经网络: 目标评价神经网络Q 步骤3:红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的状态更新: 结合红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体信息,红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的输入状态分别为:
步骤4:对红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的神经网络进行训练: 步骤4-1:设置最大训练回合数为E,设置为100万,每回合最大步长为T,设置为5000,经验池容量为M,策略神经网络和评价神经网络的学习率分别为α 步骤4-2:随机初始化状态空间S
并且初始化神经网络权重参数; 步骤4-3:在状态S
其中, 步骤4-4:在状态S
其中, 步骤4-5:在状态S
其中, 步骤4-6:红方拦截智能体执行动作A 步骤4-7:判断经验池当前存储的经验条数N是达到批量训练量M,若N<M,则继续执行步骤4-3、步骤4-4和步骤4-5,其中经验条数N为5000,批量训练量M为128;若当前存储样本数量等于经验池容量时,新经验将覆盖经验池中存在最久的经验,此时进入步骤4-8、步骤4-9和步骤4-10; 步骤4-8:红方拦截智能体从经验池中随机抽取样本进行学习,样本量为M,学习过程为:
其中y 步骤4-9:根据最小损失函数更新策略神经网络:
其中L为损失函数 步骤4-10:更新策略梯度
其中, 步骤4-11:对红方拦截智能体的策略神经网络和评价神经网络的参数进行更新:
其中τ 步骤4-12:蓝方拦截智能体从经验池中随机抽取样本进行学习,样本量为M,学习过程为:
其中 步骤4-13:根据最小损失函数更新策略神经网络:
其中L 步骤4-14:更新策略梯度
其中, 步骤4-15:对蓝方拦截智能体的策略神经网络和评价神经网络的参数进行更新:
其中τ 步骤4-16:蓝方攻击智能体从经验池中随机抽取样本进行学习,样本量为M,学习过程为:
其中 步骤4-17:根据最小损失函数更新策略神经网络:
其中L 步骤4-18:更新策略梯度
其中, 步骤4-19:对蓝方拦截智能体的策略神经网络和评价神经网络的参数进行更新:
其中τ 步骤4-20:计算目标相对位置: 红方拦截智能体与蓝方拦截智能体的距离为:
红方拦截智能体与蓝方攻击智能体的距离为:
蓝方攻击智能体与红方基地的距离为:
步骤4-21:对博弈结果进行判定: 设定门限ε=1; 当d 当d 当d 当d 当d 当d 当d 步骤4-22:当d 当iStep+1 当iStep+1≥iStep_Max时,执行步骤4-15; 步骤4-23:对回合数e进行判定,若e<E,则返回至步骤4-2;若e=E,则保存神经网络参数; 步骤5:基于步骤1,构建包含红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的结果描述性博弈训练场景; 步骤5-1:执行并修改步骤1-1: 将红方拦截智能体的牵引性奖励函数R 当d 当d 当d 当d 当d 当d 当d 当d 当d 步骤5-2:执行并修改步骤1-2: 将蓝方拦截智能体的牵引性奖励函数R 当d 当d 当d 当d 当d 当d 当d 当d 当d 步骤5-3:执行并修改步骤1-3: 将蓝方攻击智能体的牵引性奖励函数R 当d 当d 当d 当d 当d 当d 当d 当d 当d 步骤6:迁移红方拦截智能体的策略神经网络、评价神经网络、目标策略神经网络和目标评价神经网络到结果描述性博弈训练场景; 步骤7:迁移蓝方拦截智能体的策略神经网络、评价神经网络、目标策略神经网络和目标评价神经网络到结果描述性博弈训练场景; 步骤8:迁移蓝方攻击智能体的策略神经网络、评价神经网络、目标策略神经网络和目标评价神经网络到结果描述性博弈训练场景; 步骤9:执行步骤3; 步骤10:执行步骤4; 步骤11:构建包含红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的评估性博弈场景; 步骤11-1:执行5-1; 步骤11-2:执行5-2; 步骤11-3:执行5-3; 步骤12:构建基于规则的红方拦截智能体: 红方拦截智能体的横向动作
其中mod表示取余,其中v 红方拦截智能体的纵向动作
步骤13:迁移蓝方拦截智能体的策略神经网络、评价神经网络、目标策略神经网络和目标评价神经网络到评估性博弈场景; 步骤14:迁移蓝方攻击智能体的策略神经网络、评价神经网络、目标策略神经网络和目标评价神经网络到评估性博弈场景; 步骤15:对学习效果进行验证: 进行100轮测试,如果蓝方胜率超过门限η,设置为90轮,则实现无人机协同突防;如果蓝方胜率低于门限η,则返回步骤4继续训练。 本实施例在验证性博弈场景中多无人机协同突防的轨迹展示如图5所示。 总之,本发明通过为防御方和进攻方分别建立深度神经网络,搭建异步模仿深度确定性策略梯度框架,以多无人机和目标的位置作为神经网络的输入,以多无人机的速度为输出,通过牵引性博弈场景和结果描述性博弈场景对策略网络进行训练和迁移,从而完成多无人机协同突防任务。
机译: 基于智能网格的多智能体深度强化学习代理方法
机译: 基于强化学习的协作驾驶中多智能体传感器融合的方法和装置
机译: 基于强化学习的协作驾驶中多智能体传感器融合的方法和装置