首页> 中国专利> 一种对导弹群进行在线目标分配的方法

一种对导弹群进行在线目标分配的方法

摘要

本发明公开了一种对导弹群进行在线目标分配的方法,包括:根据实时获取的各个目标的状态以及导弹群自身的状态,建立导弹群对目标群的打击优势矩阵;对于导弹群中未分配目标的导弹,根据打击优势矩阵、导弹群与目标群的作战相关信息以及导弹群的当前目标分配情况,分别构建导弹与目标群中各目标的联合状态向量;根据导弹与目标群中各目标的联合状态向量,利用估值神经网络为导弹分配目标;重复前两步,直至导弹群中所有导弹都被分配且仅分配了一个目标为止。通过本发明的技术方案,能够解决大规模弹群协同作战场景中复杂性高、对抗性强的问题,为最大化导弹群协同作战效能奠定基础。

著录项

  • 公开/公告号CN113255234A

    专利类型发明专利

  • 公开/公告日2021-08-13

    原文格式PDF

  • 申请/专利号CN202110715726.3

  • 申请日2021-06-28

  • 分类号G06F30/27(20200101);G06N3/04(20060101);G06N3/08(20060101);G06N7/00(20060101);G06F111/08(20200101);

  • 代理机构11987 北京天汇航智知识产权代理事务所(普通合伙);

  • 代理人黄川;史继颖

  • 地址 100191 北京市海淀区学院路37号

  • 入库时间 2023-06-19 12:13:22

说明书

技术领域

本发明属于导弹群协同攻击建模技术领域,尤其涉及一种导弹群实时在线目标分配方法。

背景技术

随着军事科技的发展,包含多类作战资源的大规模作战已经逐渐成为现代战争的常态,这对如何高效合理地协调多种作战资源提出了更高的要求。现代战争的战场环境复杂,拥有较强的对抗性与随机性,采用导弹群协同攻击的方式能有效提高对目标群的饱和打击能力。在弹群协同攻击的过程中,一个关键问题是如何实时在线地为导弹群分配合适的打击目标以实现作战效能的最大化。

由于战场环境瞬息万变,导弹群对目标群的协同打击也需要具有随机应变的能力。如何在敌方干扰拦截、部分导弹故障失灵、敌方目标数量变化等作战规模发生改变的情况下,实时在线地为各导弹分配合适的目标成为亟待解决的问题。

发明内容

针对战场环境复杂性高、对抗性强、作战规模动态变化的问题,本发明提出一种对导弹群进行实时在线目标分配的方法,能够解决大规模弹群协同作战场景中复杂性高、对抗性强的问题,为最大化导弹群协同作战效能奠定基础。本发明的具体技术方案如下:

一种对导弹群进行在线目标分配的方法,包括以下步骤:

S1:根据实时获取的各个目标的状态以及导弹群自身的状态,建立导弹群对目标群的打击优势矩阵;

S2:对于导弹群中未分配目标的导弹,根据步骤S1中打击优势矩阵、导弹群与目标群的作战相关信息以及导弹群的当前目标分配情况,分别构建待分配目标的导弹与目标群中各目标的导弹-目标联合状态向量;

S3:根据步骤S2导弹与目标群中各目标的导弹-目标联合状态向量,利用深度强化学习技术训练估值神经网络模型;

S4:利用步骤S3训练的估值神经网络模型为导弹分配目标;

S5:重复步骤S2和步骤S4,直至导弹群中所有导弹都被分配且仅分配了一个目标为止。

进一步地,所述步骤S1中的导弹群对目标群的打击优势矩阵为

其中,导弹

进一步地,所述步骤S2的具体过程为:

S2-1:定义

其中,

S2-2:令

其中,

S2-3:定义导弹

则导弹

其中,

进一步地,所述步骤S3的具体处理过程为:

S3-1:将为导弹群中的导弹在线分配目标的决策过程建模为马尔可夫决策过程;马尔可夫决策过程由下述元素表示:

状态

动作

奖励

S3-2:基于决策边际收益的局部奖励表示单次决策所带来的预期作战收益的增加;已知变量

对于将目标

则该决策带来的预期作战收益的增加为:

全局作战效能表示完成导弹群的目标分配后所获得的作战收益;定义决策变量

则全局决策矩阵

将全局作战效能平均分给每一次决策,即得到单次决策所获得的基于全局作战效能的全局奖励:

综上,定义奖励

其中,

进一步地,所述步骤S4的具体方法为:针对目标群中的N个目标,根据步骤S2得到N个导弹-目标联合状态向量,将其分别输入步骤S3得到的估值神经网络模型,从而得到N个输出估值,再从N个输出估值中找出最大估值,最大估值对应的目标即为导弹选择的打击目标。

本发明的有益效果在于:本发明提供了一种基于神经网络的弹群在线目标分配方法,构建弹群在线目标分配的马尔科夫决策过程,并基于深度强化学习技术训练估值神经网络,再利用估值神经网络实现弹群的实时在线目标分配,通过解决大规模弹群协同作战场景中复杂性高、对抗性强的问题,为最大化导弹群协同作战效能奠定基础。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他的附图。其中:

图1是本发明的一种对导弹群进行在线目标分配的方法的流程图;

图2是本发明截断测试的无局部奖励版本训练曲线;

图3是本发明截断测试的无全局奖励版本训练曲线;

图4是本发明截断测试的完整版本训练曲线。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。

一种对导弹群进行在线目标分配的方法,包括以下步骤:

S1:根据实时获取的各个目标的状态以及导弹群自身的状态,建立导弹群对目标群的打击优势矩阵;

S2:对于导弹群中未分配目标的导弹,根据步骤S1中打击优势矩阵、导弹群与目标群的作战相关信息以及导弹群的当前目标分配情况,分别构建待分配目标的导弹与目标群中各目标的导弹-目标联合状态向量;

S3:根据步骤S2导弹与目标群中各目标的导弹-目标联合状态向量,利用深度强化学习技术训练估值神经网络模型;

S4:利用步骤S3训练的估值神经网络模型为导弹分配目标;

S5:重复步骤S2和步骤S4,直至导弹群中所有导弹都被分配且仅分配了一个目标为止。

步骤S1中的导弹群对目标群的打击优势矩阵为

其中,导弹

步骤S2的具体过程为:

S2-1:定义

其中,

S2-2:令

其中,

S2-3:定义导弹

则导弹

其中,

步骤S3的具体处理过程为:

S3-1:将为导弹群中的导弹在线分配目标的决策过程建模为马尔可夫决策过程;马尔可夫决策过程由下述元素表示:

状态

动作

奖励

S3-2:基于决策边际收益的局部奖励表示单次决策所带来的预期作战收益的增加;已知变量

对于将目标

则该决策带来的预期作战收益的增加为:

全局作战效能表示完成导弹群的目标分配后所获得的作战收益;定义决策变量

则全局决策矩阵

将全局作战效能平均分给每一次决策,即得到单次决策所获得的基于全局作战效能的全局奖励:

综上,定义奖励

其中,

以一个带残差连接的4层BP神经网络作为估值神经网络,其输入为步骤S2中导弹与目标的联合状态向量,输出为一个1维标量,表示目标作为导弹的打击对象的战略估值。对于导弹

需要注意的是,尽管本发明实例以一个带残差连接的4层BP神经网络作为估值神经网络,但以其他任何参数化模型作为估值模型所获得的其他实施例,都属于本发明保护的范围。

步骤S4的具体方法为:针对目标群中的N个目标,根据步骤S2得到N个导弹-目标联合状态向量,将其分别输入步骤S3得到的估值神经网络模型,从而得到N个输出估值,再从N个输出估值中找出最大估值,最大估值对应的目标即为导弹选择的打击目标。

为了方便理解本发明的上述技术方案,以下通过具体实施例对本发明的上述技术方案进行详细说明。

实施例1

截断测试,截断测试是指去除模型或算法中的某一部分,然后观察其对算法或模型的影响。为了展示在所提出的对导弹群进行在线目标分配的方法中设计的各个部分的有效性,分别去除了所建模马尔可夫决策过程中的局部奖励信号与全局奖励信号,并利用所得的两个版本的算法与完整版本的算法进行比较,得到的相关训练曲线如图2-图4所示;

图中,深灰色曲线代表5次实验的平均值,而浅灰色区域表示对应的置信区间。由图2可以看出,去掉局部奖励的算法版本在训练中无法收敛,所获作战效能与随机选择目标的策略获得的作战效能相当,这意味着仅仅依靠全局奖励信号无法对目标分配策略的优化进行指导,神经网络难以在不同的条件下做出合适的决策。

在图3中,去掉全局奖励的版本虽然能够收敛,然而收敛的结果不理想,这是因为只考虑边际收益(局部奖励)的情况下算法会倾向于选择价值较高的目标,使得在高价值目标上出现火力过于重叠的现象,从而导致最终的作战收益降低;相比之下,完整的版本不仅拥有稳定、高质量的训练结果,同时能在200个训练回合左右即开始收敛,取得了最优的训练结果。

实施例2

性能测试,为了进一步展现本发明的性能,给定20组不同规模的问题实例(例如,

表1 四种算法在不同规模问题实例上的结果比较

表中加粗字体表示在某一规模下,各方法所取得的最大作战效能,由表可以看到,本发明的算法在多组问题实例上,尤其是规模较大时,都取得了最佳的实验结果。即使在部分小规模实例中,基于深度强化学习的导弹目标分配方法的效果也接近其他算法的最优结果。值得一提的是,参与测试的神经网络仅仅在单一的目标数量为9的问题规模上进行了训练,却能适应多种不同规模的问题实例,这说明本发明的算法具有较强的泛化性与灵活性,相比于传统的启发式方法更能满足实际应用的需求。

基于所述马尔科夫决策过程,能够在仿真环境中利用深度强化学习技术训练所述估值神经网络。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,仅仅通过改变所述马尔可夫决策过程中的参数值、调整深度强化学习中的训练策略等简单劳动得到的所有其他实施例,都属于本发明保护的范围。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号