首页> 中国专利> 基于多智能体强化学习的多无人机协同空战机动决策方法

基于多智能体强化学习的多无人机协同空战机动决策方法

摘要

本发明公开了一种基于多智能体强化学习的多无人机协同空战机动决策方法,解决了仿真多对多空战中多无人机协同空战中的机动动作的自主决策问题。本方法包含:无人机平台的运动模型创建;基于攻击区和距离、角度因素的多机空战态势评估,分析多机空战机动决策的状态空间、行动空间和奖励值;设计了协同空战中的目标分配方法和策略协调机制,通过奖励值的分配,定义了各个无人机在目标分配、态势优势和安全避碰的行为反馈,经过训练后实现策略协同。本发明可有效提高多无人机进行协同空战机动自主决策的能力,具有更强的协同性和自主寻优性,在不断的仿真和学习中无人机编队所做的决策水平不断提高。

著录项

  • 公开/公告号CN112947581B

    专利类型发明专利

  • 公开/公告日2022-07-05

    原文格式PDF

  • 申请/专利权人 西北工业大学;

    申请/专利号CN202110318644.5

  • 申请日2021-03-25

  • 分类号G05D1/10(2006.01);

  • 代理机构西安凯多思知识产权代理事务所(普通合伙) 61290;

  • 代理人刘新琼

  • 地址 710072 陕西省西安市友谊西路127号

  • 入库时间 2022-08-23 13:58:39

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-05

    授权

    发明专利权授予

说明书

技术领域

本发明属于无人机技术领域,具体涉及多无人机协同空战机动决策方法。

背景技术

目前,无人机已经能够完成侦察、监视和对地攻击等任务,在现代战争中发挥着越来越难以替代的作用。但是由于智能化水平的限制,目前无人机尚无法进行自主空战机动决策,尤其是多架无人机的自主协同空战。因此,提升无人机的智能化水平,让无人机能够根据态势环境而自动产生控制指令完成空战中的机动动作是当前主要的研究方向。

让无人机完成空战机动自主决策,其实质是完成从空战态势到机动动作的映射,在不同态势下执行相应的机动动作。由于空战的态势较之于其他任务更加复杂,靠人工预编程的方法难以全面地覆盖空战任务的态势空间,更难以计算产生最优的机动动作决策。

目前对无人机空战机动决策研究都是针对1v1单机对抗场景下所开展的,而现实空战中,基本都是多架无人机组成编队协同作战。多机协同空战涉及空战态势评估、多目标分配、机动决策三个方面,协同空战是这三个部分的紧密联系的耦合过程,相对于单机对抗的机动决策,多机协同空战除了兵力数量规模扩大之外,还需要考虑战术配合,问题更加复杂。

对多机协同空战决策研究可以分为集中式和分布式,集中式的方法是由一个中心计算编队内所有无人机的行动,这类模型较为复杂,存在计算难度大、实时性不足的问题。分布式方法的思路是在目标分配的基础上由编队内的各个无人机自行计算各自的机动动作,从而降低模型的复杂度,通过目标分配来实现编队任务的协同。现有的分布式协同空战决策方法多采用先进行目标分配,再根据目标分配的结果将多对多空战转化为一对一的情况,这种方法无法很好地发挥多目标攻击能力和编队作战的战术协同,无法达到1+1>2的效果。

发明内容

为了克服现有技术的不足,本发明提供了一种基于多智能体强化学习的多无人机协同空战机动决策方法,解决了仿真多对多空战中多无人机协同空战中的机动动作的自主决策问题。本方法包含:无人机平台的运动模型创建;基于攻击区和距离、角度因素的多机空战态势评估,分析多机空战机动决策的状态空间、行动空间和奖励值;设计了协同空战中的目标分配方法和策略协调机制,通过奖励值的分配,定义了各个无人机在目标分配、态势优势和安全避碰的行为反馈,经过训练后实现策略协同。本发明可有效提高多无人机进行协同空战机动自主决策的能力,具有更强的协同性和自主寻优性,在不断的仿真和学习中无人机编队所做的决策水平不断提高。

本发明解决其技术问题所采用的技术方案包括以下步骤:

步骤1:建立多机空战环境模型,定义在多机协同空战过程中每架无人机进行机动决策的状态空间、行动空间和奖励值;

步骤1-1:在地面坐标系中,ox轴取正东方,oy轴取正北方,oz轴取铅垂方向;在地面坐标系中无人机的运动模型如式(1)所示:

在地面坐标系中,无人机的动力学模型如式(2)所示:

其中,(x,y,z)表示无人机在地面坐标系中的位置,v表示无人机速度,

步骤1-2:设定导弹仅具有尾后攻击能力;在导弹的截获区域内,用v

设导弹的最远截获距离为D

根据导弹截获区域的定义,如果目标处于己方导弹的截获区域,则说明己方能够发射武器攻击目标,己方处于优势,定义无人机截获目标时的优势值η

其中,(x

定义目标截获无人机获得的优势值η

其中,(x

则空战中,无人机基于截获机会获得的优势值η

η

定义基于双方角度参数与距离参数获得的优势值η

上式表明,当无人机对目标尾追时,优势值为η

综合式式(4)、(5),得出无人机所处空战的态势评估函数η为:

η=η

步骤1-3:任意时刻空战态势的几何关系由同一坐标系内的无人机位置矢量、无人机速度矢量、目标位置矢量、目标速度矢量所包含的信息完全确定,因此空战态势的描述由以下5个方面组成:

1)无人机的速度信息,包括速度大小v

2)目标的速度信息,包括速度大小v

3)无人机与目标之间的相对位置关系,采用距离矢量D表征;距离矢量的模D=||D||,γ

4)无人机与目标之间的相对运动关系,包括无人机速度矢量与距离矢量D之间的夹角α

5)无人机的高度信息z

基于上述1)到5)中的变量能够完备地表征任意时刻的1v1空战态势,因此1v1机动决策模型的状态空间是一个13维向量空间s:

s=[v

采用态势评估函数η作为空战机动决策奖励值R,通过态势评估函数来反映行动值对空战态势的作用,R=η;

步骤1-4:在多机空战中,设定无人机的数量为n,分别记为UAV

记任意两个UAV

S

在多机空战过程中,每架无人机根据自己在空战环境中所处的态势做出自己的机动决策,根据式(2)所述的无人机动力学模型,无人机通过n

在多机协同空战中,按照式(4)和式(5)分别计算每个无人机与每个目标之间的态势评估值η

其中D

步骤2:建立多机协同目标分配方法,确定强化学习训练时的目标分配规则;

步骤2-1:在空战中,设n架无人机迎战m架目标,且n≥m;根据式(6),UAV

设目标分配矩阵为X=[x

以无人机对目标的态势优势最大化为目标,建立目标分配模型如下:

步骤2-2:在目标分配过程中首先分配处于攻击区内的目标,然后再分配处于攻击区以外的目标,因此目标分配方法分为如下两个部分:

步骤2-2-1:优先分配位于攻击区内的目标;

步骤2-2-2:分配位于攻击区以外的目标;

对于UAV

首先根据当前的目标分配矩阵X=[x

完成以上两步后,即完成了所有目标的分配,得到目标分配矩阵X=[x

步骤3:设计多机协同机动策略学习算法,确定强化学习训练逻辑;

多机协同机动策略学习算法包括策略协调机制和策略学习机制两部分:

步骤3-1:设计策略协调机制;

将空战对抗看作n个无人机与m个目标之间的竞争博弈,基于随机博弈的框架建立模型,一个随机博弈可以用一个元组

定义无人机编队的全局奖励值为各个无人机奖励值的平均值,即:

其中,r(s,a,b)表示在t时刻、环境状态为s、无人机编队采取行动a∈A

无人机编队的目标是学习一个策略使得奖励值的折扣累加值的期望

其中Q

定义每架无人机的奖励值函数为:

其中,r

基于式(13),对于n架无人机个体,有n个如式(14)所示的贝尔曼方程,其中的策略函数a

其中,

步骤3-2:设计策略学习机制;

采用双向循环神经网络BRNN建立多无人机机动决策模型;

多无人机空战机动决策模型由Actor网络和Critic网络组成,Actor网络由各个无人机个体的Actor网络通过BRNN连接而成,Critic网络由各个无人机个体的Critic网络通过BRNN连接而成;多无人机空战机动决策模型中将单无人机决策模型中策略网络Actor和Q网络Critic中的隐含层设置成为BRNN的循环单元,再按照无人机的数量将BRNN展开;多无人机空战机动决策模型的输入为当前空战态势,输出各个无人机的行动值;

定义UAV

根据多智能体确定性策略梯度定理,对于式(15)所述的n个无人机的目标函数J(θ),其策略网络参数θ的梯度为

采用参数化的Critic函数Q

基于式(16)和(17),采用随机梯度下降法优化Actor和Critic网络;在交互学习的过程中,通过试错获取的数据更新参数,完成协同空战策略的学习优化;

步骤3-3:根据策略协调机制和策略学习机制,确定多无人机协同空战机动决策模型的强化学习训练过程如下:

步骤3-3-1:首先进行初始化:确定空战双方的兵力和态势,设有n架无人机和m架目标进行空战对抗,n≥m;随机初始化Actor的在线网络参数θ和Critic的在线网络的参数ξ,然后将Actor和Critic在线网络的参数分别赋给其相应目标网络的参数,即θ′←θ,ξ′←ξ,θ′和ξ′分别是Actor和Critic目标网络的参数;初始化经验池R

步骤3-3-2:确定训练的初始状态,即确定空战开始的双方相对态势;设定无人机编队和目标编队中每一架无人机的初始位置信息和速度信息,即确定每架无人机的(x,y,z,v,γ,ψ)信息,根据状态空间的定义,计算得出空战初始状态s

步骤3-3-3:根据初始状态重复进行多幕训练,在每一单幕空战仿真中执行如下操作:

首先根据当前空战状态s

根据式(17)计算Critic的梯度估计值,有:

根据式(16)计算Actor的梯度估计值,有:

根据得到的梯度估计值△ξ和△θ,采用优化器对Actor和Critic的在线网络参数进行更新;完成在线网络优化后,采用软更新方式更新目标网络参数,即

其中κ∈(0,1);

步骤3-3-4:在单幕仿真结束后,如果仿真达到设定的最大幕数,则停止本次强化学习训练,否则令t加1,重复执行步骤3-3-3。

本发明的有益效果如下:

本发明基于多智能体强化学习的方法,建立了多无人机协同空战机动决策策略的产生方法,采用双向循环神经网络建立通信网络,将分立的无人机连接成编队的协同决策网络,建立了Actor-critic架构下的多无人机协同空战机动决策模型,实现了无人机个体行为的学习与编队整体作战目标的统一。有别于将多机空战分解为多个1v1空战,本发明所建立的多无人机协同空战机动决策模型通过自主学习能够获得协同空战机动策略,在空战过程实现战术配合,达到整体编队作战的态势优势并战胜对手。

附图说明

图1是本发明无人机三自由度质点运动模型。

图2是本发明一对一近距空战态势图。

图3是本发明目标匀速直线飞行条件下无人机机动决策的结果图。

图4是本发明基于双向循环神经网络的多无人机协同空战机动决策模型结构。

图5是训练完成后基于学习到的策略的空战仿真机动轨迹示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明的目的在于提供一种基于多智能体强化学习的多无人机协同空战自主机动决策的产生方法,方法主要的架构是设计出符合多无人机协同空战控制问题约束的强化学习算法结构,通过不断在构建的模拟空战环境中试错学习获得一系列合理的空战机动策略,提高多无人机在分布式架构基础上,自主完成协同空战的能力。

本发明通过通信网络实现了各无人机状态理解的一致性。根据多目标攻击特点,结合目标分配和空战态势评估值计算各无人机的强化学习奖励值,通过各个无人机的奖励引导个体的强化学习过程,使得编队的战术目标与单个无人机的学习目标紧密结合,生成协同战术机动策略。在空战过程实现战术配合,达到整体编队作战的态势优势并战胜对手。

一种基于多智能体强化学习的多无人机协同空战机动决策方法,包括以下步骤:

步骤1:建立多机空战环境模型,定义在多机协同空战过程中每架无人机进行机动决策的状态空间、行动空间和奖励值;

步骤1-1:在地面坐标系中,ox轴取正东方,oy轴取正北方,oz轴取铅垂方向;在地面坐标系中无人机的运动模型如式(1)所示:

在地面坐标系中,无人机的动力学模型如式(2)所示:

其中,(x,y,z)表示无人机在地面坐标系中的位置,v表示无人机速度,

步骤1-2:设定导弹仅具有尾后攻击能力;在导弹的截获区域内,用v

设导弹的最远截获距离为D

根据导弹截获区域的定义,如果目标处于己方导弹的截获区域,则说明己方能够发射武器攻击目标,己方处于优势,定义无人机截获目标时的优势值η

其中,(x

定义目标截获无人机获得的优势值η

其中,(x

则空战中,无人机基于截获机会获得的优势值η

η

除此之外,在空战中由于航炮和一些导弹的视场角较小,一般只有在尾追的情况下才能构成发射条件,因此对于角度关系的要求较为严苛,故定义基于双方角度参数与距离参数获得的优势值η

上式表明,当无人机对目标尾追时,优势值为η

综合式式(4)、(5),得出无人机所处空战的态势评估函数η为:

η=η

步骤1-3:空战机动决策模型的状态由一组能够完备地描述空战态势的变量组成,如图2所示,任意时刻空战态势的几何关系由同一坐标系内的无人机位置矢量、无人机速度矢量、目标位置矢量、目标速度矢量所包含的信息完全确定,因此空战态势的描述由以下5个方面组成:

1)无人机的速度信息,包括速度大小v

2)目标的速度信息,包括速度大小v

3)无人机与目标之间的相对位置关系,采用距离矢量D表征;距离矢量的模D=||D||,γ

4)无人机与目标之间的相对运动关系,包括无人机速度矢量与距离矢量D之间的夹角α

5)无人机的高度信息z

基于上述1)到5)中的变量能够完备地表征任意时刻的1v1空战态势,因此1v1机动决策模型的状态空间是一个13维向量空间s:

s=[v

采用态势评估函数η作为空战机动决策奖励值R,通过态势评估函数来反映行动值对空战态势的作用,R=η;

步骤1-4:在多机空战中,设定无人机的数量为n,分别记为UAV

如图3所示,多机空战中由于无人机和目标的数量增多,每个无人机做出机动决策需要考虑与其他所有无人机(目标与友机)的相对状态。无人机与另外一架无人机在空战中的相对态势可以由(7)式所述的13个变量完全描述。记任意两个UAV

S

在多机空战过程中,每架无人机根据自己在空战环境中所处的态势做出自己的机动决策,根据式(2)所述的无人机动力学模型,无人机通过n

在多机协同空战中,按照式(4)和式(5)分别计算每个无人机与每个目标之间的态势评估值η

其中D

步骤2:建立多机协同目标分配方法,确定强化学习训练时的目标分配规则;

在多机协同空战中,从空战整体角度看,无人机编队在空战中取得最大优势意味着每一架敌机都可被无人机的武器攻击,然而每个无人机在同一时刻只能针对一个目标进行机动,因此多机协同空战在进行机动决策的同时还要时刻进行目标分配,以实现战术策略的协同。

步骤2-1:在空战中,设n架无人机迎战m架目标,且n≥m;根据式(6),UAV

设目标分配矩阵为X=[x

以无人机对目标的态势优势最大化为目标,建立目标分配模型如下:

步骤2-2:空战中无人机进行一系列机动的目的就是让目标进入攻击区向目标发射武器,在目标分配过程中首先分配处于攻击区内的目标,然后再分配处于攻击区以外的目标,因此目标分配方法分为如下两个部分:

步骤2-2-1:优先分配位于攻击区内的目标;

步骤2-2-2:分配位于攻击区以外的目标;

对于UAV

首先根据当前的目标分配矩阵X=[x

完成以上两步后,即完成了所有目标的分配,得到目标分配矩阵X=[x

步骤3:设计多机协同机动策略学习算法,确定强化学习训练逻辑;

多机协同机动策略学习算法包括策略协调机制和策略学习机制两部分:

步骤3-1:设计策略协调机制;

将空战对抗看作n个无人机与m个目标之间的竞争博弈,基于随机博弈的框架建立模型,一个随机博弈可以用一个元组

协同空战中无人机是否在对抗中处于优势,是以所有无人机的态势来评价。定义无人机编队的全局奖励值为各个无人机奖励值的平均值,即:

其中,r(s,a,b)表示在t时刻、环境状态为s、无人机编队采取行动a∈A

无人机编队的目标是学习一个策略使得奖励值的折扣累加值的期望

其中Q

采用式(11)定义的全局奖励值能够反映无人机编队整体的态势优劣,但是采用全局奖励值不能反映出无人机个体在编队协同中的作用。事实上,全局的协同是由每个个体的目标所驱动的,因此,定义每架无人机的奖励值函数为:

其中,r

基于式(13),对于n架无人机个体,有n个如式(14)所示的贝尔曼方程,其中的策略函数a

其中,

在学习训练过程中,通过奖励值的分配,定义了各个无人机在目标分配、态势优势和安全避碰的行为反馈,经过训练后实现策略协同,每架无人机的行为能与其他友机的行为达成默契,不需要进行集中的目标分配。

步骤3-2:设计策略学习机制;

基于多智能体强化学习实现集体合作的前提是个体间的信息交互,因此,采用双向循环神经网络BRNN建立多无人机机动决策模型,保证无人机间的信息交互,实现编队机动策略的协调;

建立模型如图4所示,多无人机空战机动决策模型由Actor网络和Critic网络组成,Actor网络由各个无人机个体的Actor网络通过BRNN连接而成,Critic网络由各个无人机个体的Critic网络通过BRNN连接而成;多无人机空战机动决策模型中将单无人机决策模型中策略网络Actor和Q网络Critic中的隐含层设置成为BRNN的循环单元,再按照无人机的数量将BRNN展开;多无人机空战机动决策模型的输入为当前空战态势,输出各个无人机的行动值,由于BRNN不仅能够实现无人机个体间的通信,同时也能作为记忆单元,因此无人机可以在与友机交互信息的同时,保存个体的行动策略;

由于模型基于BRNN构建,因此对于网络参数学习的思路是将网络展开成n(无人机个数)个子网络计算反向梯度,然后使用基于时间的反向传播算法更新网络参数。梯度在每个无人机个体的Q

定义UAV

根据多智能体确定性策略梯度定理,对于式(15)所述的n个无人机的目标函数J(θ),其策略网络参数θ的梯度为

采用参数化的Critic函数Q

基于式(16)和(17),采用随机梯度下降法优化Actor和Critic网络;在交互学习的过程中,通过试错获取的数据更新参数,完成协同空战策略的学习优化;

步骤3-3:根据策略协调机制和策略学习机制,确定多无人机协同空战机动决策模型的强化学习训练过程如下:

步骤3-3-1:首先进行初始化:确定空战双方的兵力和态势,设有n架无人机和m架目标进行空战对抗,n≥m;随机初始化Actor的在线网络参数θ和Critic的在线网络的参数ξ,然后将Actor和Critic在线网络的参数分别赋给其相应目标网络的参数,即θ′←θ,ξ′←ξ,θ′和ξ′分别是Actor和Critic目标网络的参数;初始化经验池R

步骤3-3-2:确定训练的初始状态,即确定空战开始的双方相对态势;设定无人机编队和目标编队中每一架无人机的初始位置信息和速度信息,即确定每架无人机的(x,y,z,v,γ,ψ)信息,根据状态空间的定义,计算得出空战初始状态s

步骤3-3-3:根据初始状态重复进行多幕训练,在每一单幕空战仿真中执行如下操作:

首先根据当前空战状态s

根据式(17)计算Critic的梯度估计值,有:

根据式(16)计算Actor的梯度估计值,有:

根据得到的梯度估计值△ξ和△θ,采用优化器对Actor和Critic的在线网络参数进行更新;完成在线网络优化后,采用软更新方式更新目标网络参数,即

其中κ∈(0,1);

步骤3-3-4:在单幕仿真结束后,如果仿真达到设定的最大幕数,则停止本次强化学习训练,否则令t加1,重复执行步骤3-3-3。

具体实施例:

设无人机与目标进行2对2空战,本发明方法用于无人机双机编队,具体实现步骤如下:

1、设计多机空战环境模型。

在多机空战中,设定无人机的数量为2,分别记为UAV

根据步骤1计算得到任意一架UAV

在多机空战过程中,每个无人机根据自己在空战环境中所处的态势做出自己的机动决策,根据如式(2)所述的无人机动力学模型,无人机通过n

在多机协同空战中,按照式(4)和式(5)分别计算每个无人机与每个目标之间的态势评估值η

2、设计多机协同目标分配方法。

两架无人机迎战2个目标。根据(6)式,UAV

由步骤2得到目标分配矩阵X=[x

3、设计多机协同机动策略学习算法。

以无人机和目标飞机相向飞行,目标匀速直线运动飞行的空战场景,对无人机进行强化学习训练。

多无人机协同空战的空战背景设定为近距空战,空战环境模型的参数设定如下。导弹的最远截获距离D

机动决策模型的Actor网络分为输入层、隐含层和输出层三个部分,其中输入层输入空战状态,隐含层分为2层,第1层由正向和反向各400个LSTM神经元组成,该层按无人机个数依据双向循环神经网络结构展开后形成通信层,第2层由100个神经元组成,采用tanh激活函数,参数以均匀分布[-3×10

机动决策模型的Critic网络同样分为输入层、隐含层和输出层三个部分,其中输入层输入空战状态和无人机的3个行动值,隐含层分为2层,第1层由正向反向各500个LSTM神经元组成,该层按无人机个数依据双向循环神经网络结构展开后形成通信层,第2层由150个神经元组成,采用tanh激活函数,参数以均匀分布[-3×10

图5是训练完成后,基于学习到的策略的空战仿真机动轨迹。基于学习到的策略的空战仿真机动轨迹。从图中可以看出,在初始时刻,UAV1和UAV2分别面对目标1和目标2相向飞行,根据目标分配算法,UAV1和UAV2分别选择目标1和目标2作为攻击目标进行机动占位,在与各自目标接近过程中,调整航向和高度,避免交汇中可能出现的碰撞,在与目标交汇前后,UAV1向右侧回转,UAV2向左侧回转,实现了交叉掩护,在两架无人机均向对方方向转弯后交换了各自的攻击目标,而不是继续回转去追击各自初始分配的目标,体现了战术配合,证明经过强化学习训练,无人机双机编队能够学习得出空战机动策略,实现双机间的战术配合,在空战中获取优势,而不是将多机空战分解为多个1v1对抗。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号