首页> 中国专利> 用状态相似性进行经验回放采样的无人平台决策学习方法

用状态相似性进行经验回放采样的无人平台决策学习方法

摘要

本发明公开了一种用状态相似性进行经验回放采样的无人平台决策学习方法,输入为从经验回放池中采样得到的历史样本数据,之后计算每个历史样本数据与无人平台的决策神经网络模型的当前策略的状态相似度与动作相似度,基于状态和动作相似度来判定赋予历史样本数据不同的训练权重,根据历史样本数据的训练权重不同更新无人平台的决策神经网络模型。通过限制使用与当前策略差异较大的数据的更新幅度,来缓解利用深度强化学习更新无人平台策略时经验回放池中数据分布与当前策略对应数据分布不一致的问题,能够更好的利用经验回放池中历史数据,提高训练数据利用率和稳定性,使得无人平台能够学得更好更稳定的策略。

著录项

  • 公开/公告号CN112734030B

    专利类型发明专利

  • 公开/公告日2022.09.02

    原文格式PDF

  • 申请/专利权人 中国科学技术大学;

    申请/专利号CN202011623599.6

  • 发明设计人 庄连生;张淦霖;李厚强;

    申请日2020.12.31

  • 分类号G06N3/08;G06N5/00;

  • 代理机构北京凯特来知识产权代理有限公司;

  • 代理人郑立明;付久春

  • 地址 230026 安徽省合肥市包河区金寨路96号

  • 入库时间 2022-09-26 23:17:37

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-02

    授权

    发明专利权授予

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号