首页> 中国专利> 一种基于深度强化学习的作战策略优化方法及系统

一种基于深度强化学习的作战策略优化方法及系统

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种基于深度强化学习的作战策略优化方法及系统，该方法包括：构建高超声速滑翔弹模型，确定导弹的当前状态；构建神经网络模型，神经网络模型的输入为突防环境，输出为动作集；根据突防环境，基于神经网络模型，得到预测动作集；根据当前状态以及预测动作集，计算导弹的下一步状态并更新高超声速滑翔弹模型；采用Minimax算法计算敌方状态；根据下一步状态以及敌方状态计算奖惩函数；根据奖惩函数优化神经网络模型；基于优化后的神经网络模型得到最优作战策略。本发明具有短距离精确操作和长期规划预测的能力，推演效果符合预期，同时其具有较强的实时决策能力，可以很大程度的提高突防成功的概率，可作为滑翔弹突防的决策依据。

著录项

公开/公告号CN113050686A

专利类型发明专利
公开/公告日2021-06-29

原文格式PDF
申请/专利权人北京航空航天大学;
展开▼

申请/专利号CN202110294246.4
发明设计人董希旺;石明慧;化永朝;于江龙;任章;吕金虎;
展开▼

申请日2021-03-19
分类号G05D1/10(20060101);
代理机构11569 北京高沃律师事务所;
代理人王爱涛
地址 100191 北京市海淀区学院路37号
入库时间 2023-06-19 11:39:06

法律信息

法律状态公告日

法律状态信息

法律状态
2022-03-25

授权

发明专利权授予

相似文献

专利
中文文献
外文文献

1. 一种基于深度强化学习的作战策略优化方法及系统 [P] . 中国专利： CN113050686A . 2021-06-29
2. 一种基于深度强化学习的换挡策略动态优化方法 [P] . 中国专利： CN110716550A . 2020-01-21
3. Downshift switching point optimizing method for automatic transmission of motor vehicle, involves feeding temporal workflow of switching process control to switching strategy software, and determining point based on computed duration [P] . 德国专利： DE102008000483A1 . 2009-09-10

机译：一种用于汽车自动变速器的降档切换点优化方法，涉及将切换过程控制的时间工作流馈送到切换策略软件，并基于计算的持续时间确定点
4. SPATIAL AND TEMPORAL ATTENTION-BASED DEEP REINFORCEMENT LEARNING OF HIERARCHICAL LANE-CHANGE POLICIES FOR CONTROLLING AN AUTONOMOUS VEHICLE [P] . 美国专利： US2020139973A1 . 2020-05-07

机译：基于时空注意的深度强化学习，用于控制自主车辆的分层车道变化策略
5. PARKING STRATEGY BASED ON DEEP REINFORCEMENT LEARNING [P] . 世界知识产权组织专利： WO2020056875A1 . 2020-03-26

机译：基于深度强化学习的停车策略