首页> 中国专利> 一种基于强化学习的高超声速飞行器再入协同制导方法

一种基于强化学习的高超声速飞行器再入协同制导方法

摘要

本发明公开了一种基于强化学习的高超声速飞行器再入协同制导方法,具体涉及一种基于强化学习的高超声速飞行器再入协同制导方法。建立高超声速再入动力学模型以及多约束再入模型;设计攻角剖面和高度能量剖面,获得攻角和倾侧角的解析解;根据DQN算法对倾侧角符号智能决策,扩展其动作空间,考虑时间协同和落角协同设计阶梯状混合奖励函数;离线训练倾侧角智能决策模型,给定协同时间和协同落角在线获得制导指令,得到了一种基于智强化学习的高超声速飞行器再入协同制导方法,有效的克服了飞行器制导策略中,倾侧角符号翻转频繁,满足了时间协同和落角协同,仿真实验验证了本发明能够很好的考虑时间和落角协同下进行多高超声速飞行器制导。

著录项

  • 公开/公告号CN114675545A

    专利类型发明专利

  • 公开/公告日2022-06-28

    原文格式PDF

  • 申请/专利权人 中国人民解放军火箭军工程大学;

    申请/专利号CN202210577852.1

  • 申请日2022-05-26

  • 分类号G05B13/04;G06N3/04;G06N3/08;G06N20/00;

  • 代理机构北京圣州专利代理事务所(普通合伙);

  • 代理人徐晟逸

  • 地址 710025 陕西省西安市灞桥区同心路2号

  • 入库时间 2023-06-19 15:47:50

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-06-28

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及高超声速飞行器再入协同制导技术领域,尤其是涉及一种基于强化学习的高超声速飞行器再入协同制导方法。

背景技术

高超声速飞行器再入协同制导是近年来高超声速飞行器研究的核心和重点之一,采用多个高超声速飞行器同时实现时间协同和落角协同仍是多国未解决的难题。

高超声速飞行器本生具有强耦合、强非线性、强不确定性的特点,单枚飞行器的轨迹优化与制导已十分困难,可想而知,多枚高超声速飞行器轨迹优化与制导问题的复杂度必然是急剧增加的,再加上时间协同的约束,多高超飞行器时间协同的再入机动制导问题研究具有一定的挑战性。除此之外,不同再入任务对终端约束也不同,一些新型任务同时对落角有一定要求,因此,以时间和角度协同为性能指标,完成多高超声速飞行器再入协同制导问题研究,能够极大地提升高超声速飞行器的生存能力,对于高超声速飞行器实际应用具有重要意义。高超声速飞行器再入机动飞行中,飞行高度和马赫数跨度范围大、飞行环境复杂、气动特性变化剧烈、飞行约束条件多,对高超声速飞行器精确制导系统提出了较高的要求,多枚高超协同完成任务,问题的复杂度急剧提升,传统针对单枚高超的制导算法,难以直接应用到再入协同制导方法设计中,因此如何设计具备飞行时间可控能力的再入制导方法是一个领域内研究的热点。

再入飞行器制导方法主要有标称轨迹制导方法和预测校正制导方法两大类。标称轨迹制导方法依赖事先规划好的再入轨迹,难以满足未来对升力式再入飞行器自主性要求。预测校正法随着弹载计算机计算能力的提高,采用数值方法预测轨迹逐渐成为主流。随着人工智能的高速发展,采用强化学习改进预测校正法,提高制导能力成为更多学者的选择。

发明内容

本发明的目的是提供一种基于强化学习的高超声速飞行器再入协同制导方法,有效的克服了飞行器制导策略中,倾侧角符号翻转频繁,满足了时间协同和落角协同,仿真实验验证了本发明能够很好的考虑时间和落角协同下进行多高超声速飞行器制导。

为实现上述目的,本发明提供了一种基于强化学习的高超声速飞行器再入协同制导方法,包括以下步骤:

S1、基于地心直角坐标系,建立高超声速滑翔飞行器再入动力学模型;

S2、结合高超声速飞行器再入动力学模型,考虑端点约束、常规路径约束,建立多约束条件下高超声速滑翔飞行器再入制导问题的模型;

S3、基于步骤S2的制导模型,纵向制导设计攻角剖面和高度能量剖面,快速计算攻角指令,解析推导倾侧角幅值;

S4、横向制导采用强化学习思想设计倾侧角符号决策机制,同时考虑落角和时间协同设计混合奖励函数;

S5、获得倾侧角指令后,进行约束的强化管理,利用路径约束和倾侧角上下限约束对倾侧角指令进行限值,最后得到能够满足时间角度协同的再入制导指令;

S6、设计基于强化学习的高超声速飞行器再入协同制导方法。

优选的,所述步骤S1中基于地心直角坐标系中建立高超声速滑翔飞行器再入机动制导动力学模型为:

式中,

优选的,所述步骤S2中考虑端点约束、常规路径约束,建立多约束条件下高超声速滑翔飞行器再入制导问题的模型:

多约束问题考虑端点约束和常规路径约束:

常规路径约束包括热流率约束、过载约束和动压约束,其数学模型分别为:

其中,

最终得到的模型多约束条件下高超声速飞行器再入协同制导问题描述,模型如下:

需要满足的约束:

优选的,所述步骤S3中纵向制导设计攻角剖面和高度能量剖面,快速计算攻角指令,解析推导倾侧角幅值:

设计攻角剖面如下:

其中,

能量

将步骤S1中动力学模型转换为:

设计高度能量剖面如下:

其中,

其中,

考虑再入运动方程,得高度-能量的一阶、二阶关系如下:

假设

则地心距对能量的二阶导数可得:

最终攻角和倾侧角可解析为:

其中,

优选的,所述步骤S4中横向制导采用强化学习思想设计倾侧角符号决策机制,同时考虑落角和时间协同设计混合奖励函数:

由于高超声速飞行器横向制导问题是一个典型的状态空间连续、动作空间离散的最优控制问题,选择强化学习中的DQN网络进行倾侧角符号智能决策问题研究;

采用两个深度神经网络(DNN)结构,一个为当前主网络,用来根据当前状态

倾侧角符号为“+”或“-”或“0”,动作空间记作:

根据

在迭代过程中,采用梯度下降法更新参数

每次动作执行后会转移到下一个状态,并且获得一个奖励值,因此每次动作执行后将四元组

对于多个高超声速再入飞行器,在可行时间域内选取飞行时间

式中,

优选的,所述步骤S5中获得倾侧角指令后,进行约束的强化管理,利用路径约束和倾侧角上下限约束对倾侧角指令进行限值,最后得到能够满足时间角度协同的再入制导指令,其中协同制导步骤如下:

步骤一、离线学习时,考察动作空间扩展后奖励函数的变化及倾侧角翻转次数的变化,与传统的二值决策动作空间的训练结果进行比较;

步骤二、值网络训练的过程中,经验池中随机选取小批量四元组进行经验回放,确保选取数组的独立性,加快收敛;

步骤三、将离线训练环节生成的倾侧角符号决策方案应用到实际任务中去,在线求解满足时间和角度协同的制导指令。

作为一种模型转换方法,步骤S3中将能量引入动力学模型。利用横纵向解耦的特性,纵向制导设计攻角剖面和高度能量剖面,用能量约束速度,再将其带入动力学模型求解,构造了高度能量剖面;在阻力不变的假设下,快速计算攻角指令,解析推导了倾侧角幅值,提高计算速度和效率。

作为一种深度学习方法,步骤S4中设计倾侧角符合决策机制。采用两个深度神经网络,一个作为目标网络,一个作为值网络,迭代训练参数更符合应用需求。将倾侧角符号进行扩展,减少不必要翻转行为。同时考虑到达时间和落角,将奖励函数设计为梯度函数,更好满足了实际应用需求。

作为一种制导策略,步骤S5针对步骤S4中倾侧角符号决策进行离线训练,与传统二值决策动作空间进行比较,减少了不必要的翻转次数。值网络训练的过程中,经验池中随机选取小批量四元组进行经验回放,确保选取数组的独立性,加快收敛。离线训练的倾侧角符号决策行为在线求解,满足实际应用。

因此,本发明采用上述一种基于强化学习的高超声速飞行器再入协同制导方法,具备以下有益效果:

(1)通过纵向制导设计攻角剖面和高度能量剖面,快速计算攻角指令,解析推导倾侧角幅值,满足终端约束并减小了计算压力;

(2)通过利用强化学习的方法,拓展了传统倾侧角二值决策空间,减少了翻转次数,克服了传统二值决策易于超出边界区域的缺陷,阶梯状的混合奖励函数同时考虑了落角和时间协同,有效提高任务实现效能;

(3)通过离线训练好的倾侧角符号决策机制,并能在线协同时间和落角后在线求解,为高超声速飞行器协同制导律研究提供科学思路,仿真实验表明了本发明提出方法的有效性。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明一种基于强化学习的高超声速飞行器再入协同制导方法实施例的流程图;

图2是基于强化学习的多飞行器协同任务的倾侧角-时间曲线;

图3是基于强化学习的多飞行器协同任务的经度-纬度曲线。

具体实施方式

为了使本发明的目的、技术方案及优点更加清晰,下面结合附图、仿真实验对本发明进一步说明。

实施例

本发明提供了一种基于强化学习的高超声速飞行器再入协同制导方法,包括以下步骤:

首先建立多约束下的高超声速飞行器再入机动制导的动力学模型:

其中,端点约束模型建立如下:

常规路径约束为:

模型中,

其次设计攻角剖面如下:

其中,

将能量引入动力学模型:

设计高度能量剖面如下:

其中,

其中,

考虑再入运动方程,可得高度-能量的一阶、二阶关系如下:

假设

则地心距对能量的二阶导数可得:

最终攻角和倾侧角可解析为:

其中,

再其次,横向制导采用强化学习思想设计倾侧角符号决策机制,同时考虑落角和时间协同设计混合奖励函数。采用两个深度神经网络(DNN)结构,一个为当前主网络,用来根据当前状态

在迭代过程中,采用梯度下降法更新参数

对于多个高超声速再入飞行器,在可行时间域内选取飞行时间

式中,

最后,获得倾侧角指令后,进行约束的强化管理,利用路径约束和倾侧角上下限约束对倾侧角指令进行限值,最后得到能够满足时间角度协同的再入制导指令。离线学习时,考察动作空间扩展后奖励函数的变化及倾侧角翻转次数的变化,与传统的二值决策动作空间的训练结果进行比较;值网络训练的过程中,经验池中随机选取小批量四元组进行经验回放,确保选取数组的独立性,加快收敛;值网络训练的过程中,经验池中随机选取小批量四元组进行经验回放,确保选取数组的独立性,加快收敛。

下面对仿真实验进行介绍。

以3个高超声速飞行器从起始点相同时间、相同落角精确到达目标为目标任务,进行仿真实验。

步骤一、采用通用的CAV-H高超声速飞行器模型进行实验。CAV-H参数如表1。

步骤二、采用DQN算法离线训练横向倾侧角符号决策机制,DQN网络参数设置如表2。

步骤三、在训练好的智能体基础上,改变初始发射点与期望时间、期望落角约束,进行三枚高超声速飞行器再入协同制导任务,多飞行器再入初始条件设置如表3。

表1 CAV-H参数

表2 DQN网络参数设置

表3 多飞行器再入初始条件、目标设置

根据仿真实验,可知,本发明所提出的一种基于强化学习的高超声速飞行器再入协同制导方法能够达到预期的制导效果。

因此,本发明采用上述一种基于强化学习的高超声速飞行器再入协同制导方法,有效的克服了飞行器制导策略中,倾侧角符号翻转频繁,满足了时间协同和落角协同,仿真实验验证了本发明能够很好的考虑时间和落角协同下进行多高超声速飞行器制导。

最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号