首页> 中国专利> 带有扰动补偿的高层消防无人机编队优化控制方法及系统

带有扰动补偿的高层消防无人机编队优化控制方法及系统

摘要

本公开公开的带有扰动补偿的高层消防无人机编队优化控制方法及系统,包括:采集无人机编队的运行状态信息;将采集的无人机编队的运行状态信息输入无人机编队优化控制模型中,获取无人机编队的协同控制策略,其中,无人机编队优化控制模型包括无扰动下的分布式哈密顿‑雅克比‑贝尔曼方程和扰动观测器模型,无扰动下的分布式哈密顿‑雅克比‑贝尔曼方程以性能指标最小为目标,求解获得无扰动情形下的最优协同控制策略,通过扰动观测器模型估计外部扰动,通过无扰动情形下的最优协同控制策略和估计的外部扰动,获得无人机编队的协同控制策略。实现了保持无人机编队队形的同时也使性能指标最小。

著录项

  • 公开/公告号CN112650290A

    专利类型发明专利

  • 公开/公告日2021-04-13

    原文格式PDF

  • 申请/专利权人 广东工业大学;

    申请/专利号CN202011552686.7

  • 申请日2020-12-24

  • 分类号G05D1/10(20060101);

  • 代理机构37221 济南圣达知识产权代理有限公司;

  • 代理人董雪

  • 地址 510062 广东省广州市越秀区东风东路729号

  • 入库时间 2023-06-19 10:35:20

说明书

技术领域

本发明涉及人工智能及控制技术领域,尤其涉及带有扰动补偿的高层消防无人机编队优化控制方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。

随着城市建设规模不断扩大,如何在复杂多变的火场条件中进行高层建筑灭火及人员逃生越来越受到人们的关注。借助无人机进行现场火情勘察及人员逃生引导成为了一个有效手段。但是高层建筑往往建筑结构复杂,救援任务繁重,单靠一架无人机无法满足实际任务的需要。与单架无人机相比,无人机集群具有的协同控制、能力互补等特点,极大的提高了任务的执行效率。因此,多无人机系统的协同控制是当今无人机领域的研究热点。而多无人机编队控制是其中最受瞩目的研究方向。

如何获得无人机集群编队的最优协同控制律,使得无人机集群实现编队队形的同时也使性能指标最小,是目前尚未解决的技术问题。

发明内容

本公开为了解决上述问题,提出了带有扰动补偿的高层消防无人机编队优化控制方法及系统,首先以性能指标最小为目标,获得了无扰动情形下的最优协同控制策略,又估计了外部扰动,通过无扰动情形下的最优协同控制策略和估计的外部扰动,获得了无人机编队的协同控制策略,实现了无人机编队队形的同时也使性能指标最小。

为实现上述目的,本公开采用如下技术方案:

第一方面,提出了带有扰动补偿的高层消防无人机编队优化控制方法,包括:

采集无人机编队的运行状态信息;

将采集的无人机编队的运行状态信息输入无人机编队优化控制模型中,获取无人机编队的协同控制策略,其中,无人机编队优化控制模型包括无扰动下的分布式哈密顿-雅克比-贝尔曼方程和扰动观测器模型,无扰动下的分布式哈密顿-雅克比-贝尔曼方程以性能指标最小为目标,求解获得无扰动情形下的最优协同控制策略,通过扰动观测器模型估计外部扰动,通过无扰动情形下的最优协同控制策略和估计的外部扰动,获得无人机编队的协同控制策略。

第二方面,提出了带有扰动补偿的高层消防无人机编队优化控制系统,包括:

数据采集模块,用于采集无人机编队的运行状态信息;

协同控制策略生成模块,用于将采集的无人机编队的运行状态信息输入无人机编队优化控制模型中,获取无人机编队的协同控制策略,其中,无人机编队优化控制模型包括无扰动下的分布式哈密顿-雅克比-贝尔曼方程和扰动观测器模型,无扰动下的分布式哈密顿-雅克比-贝尔曼方程以性能指标最小为目标,求解获得无扰动情形下的最优协同控制策略,通过扰动观测器模型估计外部扰动,通过无扰动情形下的最优协同控制策略和估计的外部扰动,获得无人机编队的协同控制策略。

第三方面,提出了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成带有扰动补偿的高层消防无人机编队优化控制方法所述的步骤。

第四方面,提出了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成带有扰动补偿的高层消防无人机编队优化控制方法所述的步骤。

与现有技术相比,本公开的有益效果为:

1、本公开首先以性能指标最小为目标,获得了无扰动情形下的最优协同控制策略,又估计了外部扰动,通过无扰动情形下的最优协同控制策略和估计的外部扰动,获得了无人机编队的协同控制策略,该控制策略实现了无人机编队队形的同时也使性能指标最小。

2、本公开在保证无人机集群在保持一致性稳定的基础上,还考虑了最优控制问题,能同时平衡控制精度和控制能量消耗,更加具有实用价值。

3、本公开采用扰动观测器估计外部扰动,实现对外部扰动的精确补偿,可以更好地提高控制精度。

4、本公开采用评价网络和执行网络的权重更新方式更加简单,并且克服了大多数基于强化学习的最优控制方法所必须的满足持续激励条件的限制,因此更易于应用于工程实际。

本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。

图1为本公开实施例1中涉及的领机-僚机协同编队的水平结构图;

图2为本公开实施例1中涉及的无人机集群的V型编队及通信拓扑图;

图3为本公开实施例1中涉及的无人机集群的编队轨迹图;

图4为本公开实施例1中涉及的外部扰动的估计误差曲线。

具体实施方式:

下面结合附图与实施例对本公开作进一步说明。

应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在本公开中,术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,只是为了便于叙述本公开各部件或元件结构关系而确定的关系词,并非特指本公开中任一部件或元件,不能理解为对本公开的限制。

本公开中,术语如“固接”、“相连”、“连接”等应做广义理解,表示可以是固定连接,也可以是一体地连接或可拆卸连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员,可以根据具体情况确定上述术语在本公开中的具体含义,不能理解为对本公开的限制。

实施例1

近年来,人们在解决无人机集群编队控制时,总是期望设计最优协同控制律能够在无人机集群实现编队队形的同时也使性能指标最小。从物理意义上看,最优协同控制考虑的是如何使每一架无人机用最少的能量达到编队状态。从数学的观点来看,最优控制问题最终转化为求解哈密顿-雅克比-贝尔曼方程,这是最优解存在的充分条件。然而,对于无人机这样的非线性系统来说,哈密顿-雅克比-贝尔曼方程实际上是个非线性的偏微分方程,数学上一般难以求解。而强化学习方法为求解这类非线性偏微分方程提供了一种有效的方法。

在复杂的火场环境中,无人机遭受的外部扰动将会比在正常环境中更加严苛,常常会导致整个无人机集群的性能下降,影响系统稳定性,造成不可预估的损失。因此,提高无人机集群的抗外部扰动能力尤为重要。利用扰动观测器来估计系统遭受的未知外部扰动已经成为控制领域中常用的一种手段。结合扰动观测器来构建抗干扰补偿控制器,来补偿外部扰动对系统的影响,不仅在理论上具有可行性,在实际上更容易实现。

在该实施例中,公开了带有扰动补偿的高层消防无人机编队优化控制方法,包括:

采集无人机编队的运行状态信息;

将采集的无人机编队的运行状态信息输入无人机编队优化控制模型中,获取无人机编队的协同控制策略,其中,无人机编队优化控制模型包括无扰动下的分布式哈密顿-雅克比-贝尔曼方程和扰动观测器模型,无扰动下的分布式哈密顿-雅克比-贝尔曼方程以性能指标最小为目标,求解获得无扰动情形下的最优协同控制策略,通过扰动观测器模型估计外部扰动,通过无扰动情形下的最优协同控制策略和估计的外部扰动,获得无人机编队的协同控制策略。

进一步的,无扰动下的分布式哈密顿-雅克比-贝尔曼方程的构建过程为:

对无人机编队中的每个无人机建立无扰动情形下的无人机标称系统数学模型;

确定无人机编队中无人机的通信拓扑结构;

通过无人机标称系统数学模型和无人机的通信拓扑结构,构建无人机编队中僚机的协同一致性误差函数;

通过僚机的协同一致性误差函数,定义僚机的性能指标函数,以性能指标最小为目标,定义最优性能指标函数;

通过僚机的性能指标函数,定义系统哈密顿函数,获得分布式最优协同控制律;

通过最优性能指标函数和分布式最优协同控制律构建无扰动下的分布式哈密顿-雅克比-贝尔曼方程。

进一步的,僚机的性能指标函数综合考虑了僚机的系统一致性误差和僚机的控制输入。

进一步的,采用执行-评价双网络结构的强化学习方法求解无扰动下的分布式哈密顿-雅克比-贝尔曼方程,获得无扰动情形下的最优协同控制策略。

进一步的,根据贝尔曼的最优性原理,对哈密顿函数进行求解,获得分布式最优协同控制律。

进一步的,利用有向图描述无人机之间的通信拓扑结构。

进一步的,无人机编队的运行状态信息包括无人机的位置、速度、航向角和偏航角速度。

对无扰动下的分布式哈密顿-雅克比-贝尔曼方程的构建过程进行详细说明,包括以下步骤:

S1:建立无扰动情形下的高层消防四旋翼无人机标称系统数学模型;

S2:确定无人机编队中各个无人机之间通信拓扑结构;

S3:针对第i个僚机标称系统,定义合适的协同一致性误差以及性能指标函数;

S4:推导出分布式哈密顿-雅克比-贝尔曼方程。

步骤S1建立无扰动情形下的高层消防四旋翼无人机标称系统数学模型具体如下:

首先,为了简化问题的表述,只关注四旋翼无人机的编队行为,假设每架无人机都配备了节气门、方向舵和高度自动驾驶仪。因此可以忽略飞行器复杂的空气动力学特性,简化无人机模型。假设各无人机处于同一水平面上,从而得到单个无人机的简化数学模型为:

其中,x

令X

g(X

忽略外部扰动,无扰动情形下的无人机标称系统数学模型描述如下:

步骤S2确定无人机编队中各个无人机之间通信拓扑结构如下:

利用有向图G={V,E,A}描述编队中无人机之间的通信连接关系;

其中,V={0,1,...,N}表示图G中节点的集合,

若僚机i能够收到来自僚机j的信息,那么a

步骤S3针对第i个僚机标称系统,定义合适协同一致性误差函数以及性能指标函数具体如下:

定义僚机i的协同一致性误差δ

其中,κ

其中,

定义僚机i的性能指标函数J

该性能指标函数综合考虑了一致性误差δ

步骤S4推导出分布式哈密顿-雅克比-贝尔曼方程具体如下:

以性能指标最小为目标,定义最优性能指标函数

定义协同哈密顿函数H

根据Bellman的最优性原理,由

那么相应的分布式哈密顿-雅克比-贝尔曼方程为:

分布式哈密顿-雅克比-贝尔曼方程实际上是非线性偏微分方程,难以获得其解析解。执行-评价双网络结构的强化学习方法为克服这个难题提供了有效的手段。

采用执行-评价双网络结构分别近似最优协同控制律和性能指标函数,对分布式哈密顿-雅克比-贝尔曼方程进行求解,得到无扰动情形下的最优协同控制策略,具体如下:

γ

评价网络被用来近似性能指标函数:

其中,κ

执行网络用来近似最优控制输入

其中,κ

求解获得的最优控制输入

设计扰动观测器以估计外部扰动,从而得到扰动补偿器以消除外部扰动的影响具体如下:

上述分布式协同控制律的设计是在无外部扰动的情况进行的,接下来要设计基于扰动观测器扰动补偿的分布式最优协同鲁棒控制律,以保证无人机集群在遭受外部扰动的情况下的稳定性。扰动观测器设计为:

其中,

因此,分布式最优协同鲁棒控制律具体形式u

求解出的u

为了证实本实施例的有效性,下面进行仿真实验:

在本仿真实验中,控制目标是设计无人机编队的协同控制策略,即无人机编队的最优分布式协同控制律,使得僚机能以一定的队形跟踪领机。本例采用的领机控制输入为:

其中,时间常数τ

结果分析:

选取李亚普诺夫函数:

从图3可以看出僚机能在遭受外部扰动的情形下很好地跟踪上领机轨迹,并能保持预设的编队形状。从图4可以看出,扰动观测器能很好地估计系统的外部扰动,估计误差是一致最终有界的。

本实施例基于执行-评价双网络结构的强化学习方法在有向通信网络下实现了高层消防无人机编队优化控制,并且考虑了外部扰动的影响。基于图1所示的领机-僚机协同方式、图2所示的通信拓扑结构和编队信息,建立无人机集群协同一致性误差动态方程。选取合适的性能指标函数,使得本方案可综合考虑控制精度与控制能量消耗的平衡。基于强化学习思想,采用评价网络近似性能指标函数,执行网络近似控制输入,并设计了一种简化的权重更新律,从而克服了必须满足持续激励条件的限制。基于扰动观测器,提出一种补偿控制器达到抵消外部扰动影响的目的。最后,将无扰动情况下的协同分布式最优控制+扰动补偿控制的控制方法应用于高层无人机编队优化控制中,验证了该方法的有效性。

本实施例公开了带有扰动补偿的高层消防无人机编队优化控制方法,针对领机-僚机协同方式的无人机编队,考虑无人机遭受外部扰动的情形,设计了分布式自适应最优协同鲁棒控制方案。所提出的控制器可分为两部分:(1)无扰动情形下的最优协同控制策略;(2)扰动补偿器。首先,针对每架僚机采用执行-评价双网络结构的强化学习方法求解分布式哈密顿-雅克比-贝尔曼方程,进而得到分布式最优协同控制策略。随后,基于扰动观测器得到扰动补偿器以消除外部扰动的影响。整个控制器不仅保证了无人机系统中的所有信号是最终一致有界的,而且保证了协同代价函数的最小化。

本实施例在保证无人机集群保持一致性稳定的基础上,还考虑了最优控制问题,能同时平衡控制精度和控制能量消耗,更加具有实用价值。

采用扰动观测器估计外部扰动,实现对外部扰动的精确补偿,可以更好地提高控制精度。

评价网络和执行网络的权重更新方式更加简单,并且克服了大多数基于强化学习的最优控制方法所必须的满足持续激励条件的限制,因此更易于应用于工程实际。

实施例2

在该实施例中,公开了带有扰动补偿的高层消防无人机编队优化控制系统,包括:

数据采集模块,用于采集无人机编队的运行状态信息;

协同控制策略生成模块,用于将采集的无人机编队的运行状态信息输入无人机编队优化控制模型中,获取无人机编队的协同控制策略,其中,无人机编队优化控制模型包括无扰动下的分布式哈密顿-雅克比-贝尔曼方程和扰动观测器模型,无扰动下的分布式哈密顿-雅克比-贝尔曼方程以性能指标最小为目标,求解获得无扰动情形下的最优协同控制策略,通过扰动观测器模型估计外部扰动,通过无扰动情形下的最优协同控制策略和估计的外部扰动,获得无人机编队的协同控制策略。

实施例3

在该实施例中,公开了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1公开的带有扰动补偿的高层消防无人机编队优化控制方法所述的步骤。

实施例4

在该实施例中,公开了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1公开的带有扰动补偿的高层消防无人机编队优化控制方法所述的步骤。

以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号