首页> 中国专利> 一种防止策略抖动的无人机控制策略强化学习生成方法

一种防止策略抖动的无人机控制策略强化学习生成方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本申请提供了一种防止策略抖动的无人机控制策略强化学习生成方法，包括：初始化无人机控制策略网络及值网络；无人机控制策略在环境中的采样；采用GAE方法，根据样本估计优势函数；在优势函数上叠加防止无人机操控策略抖动的规范化项；更新无人机控制策略网络与值网络；重复上述步骤直至收敛，从而完成无人机控制策略的强化学习。本申请提供的方法基于行为者‑评论家强化学习方法架构，将当前状态下、当前执行动作情况下切换动作所带来的收益附加值作为评价动作切换的规范化项，用以抑制不必要的动作切换，实现不改变原有最优策略情况下，有效降低强化学习方法生成策略的抖动，使强化学习生成的策略更容易应用于真实环境中。

著录项

公开/公告号CN115061371A

专利类型发明专利
公开/公告日2022-09-16

原文格式PDF
申请/专利权人中国航空工业集团公司沈阳飞机设计研究所;
展开▼

申请/专利号CN202210701895.6
发明设计人彭宣淇;朴海音;詹光;孙阳;冯勇明;杨晟琦;于津;张健;
展开▼

申请日2022-06-20
分类号G05B13/04;
代理机构北京航信高科知识产权代理事务所(普通合伙);
代理人王伟立
地址 110035 辽宁省沈阳市皇姑区塔湾街40号
入库时间 2023-06-19 16:51:17

法律信息

法律状态公告日

法律状态信息

法律状态
2022-09-16

公开

发明专利申请公布

相似文献

专利
中文文献
外文文献

1. 一种电力系统深度强化学习紧急控制策略提取方法 [P] . 中国专利： CN114004282A . 2022-02-01
2. 一种基于LQG+PI混合控制策略的光束抖动抑制方法 [P] . 中国专利： CN112684710B . 2022.08.23
3. Method and system for automatic robot control policy generation via CAD-based deep inverse reinforcement learning [P] . 美国专利： US10828775B2 . 2020-11-10

机译：通过基于CAD的深度逆强化学习自动生成机器人控制策略的方法和系统
4. METHOD AND SYSTEM FOR AUTOMATIC ROBOT CONTROL POLICY GENERATION VIA CAD-BASED DEEP INVERSE REINFORCEMENT LEARNING [P] . 美国专利： US2019091859A1 . 2019-03-28

机译：通过基于CAD的深度逆强化学习自动生成机器人控制策略的方法和系统
5. system for generating an access control policy, workstation, method of creating an access control policy, and computer program product [P] . BR112013015642A2 . 2016-10-11

机译：用于生成访问控制策略的系统，工作站，创建访问控制策略的方法以及计算机程序产品