首页> 中国专利> 一种防止策略抖动的无人机控制策略强化学习生成方法

一种防止策略抖动的无人机控制策略强化学习生成方法

摘要

本申请提供了一种防止策略抖动的无人机控制策略强化学习生成方法,包括:初始化无人机控制策略网络及值网络;无人机控制策略在环境中的采样;采用GAE方法,根据样本估计优势函数;在优势函数上叠加防止无人机操控策略抖动的规范化项;更新无人机控制策略网络与值网络;重复上述步骤直至收敛,从而完成无人机控制策略的强化学习。本申请提供的方法基于行为者‑评论家强化学习方法架构,将当前状态下、当前执行动作情况下切换动作所带来的收益附加值作为评价动作切换的规范化项,用以抑制不必要的动作切换,实现不改变原有最优策略情况下,有效降低强化学习方法生成策略的抖动,使强化学习生成的策略更容易应用于真实环境中。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-16

    公开

    发明专利申请公布

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号