首页> 中国专利> 动态优势函数建模方法、装置、存储介质及电子设备

动态优势函数建模方法、装置、存储介质及电子设备

摘要

本申请实施例公开了一种动态优势函数的建模方法,涉及深度强化学习领域。方法包括:针对静态优势函数的演员‑评论家模型中包括的静态优势函数添加权重因子,得到第一动态优势函数;基于长短期记忆网络模型对所述演员‑评论家模型中包括的原始策略网络进行动作延迟跟随和重构,得到第二动态优势函数;基于所述第一动态优势函数和所述第二动态优势函数构成所述动态优势函数。采用本申请实施例,可以解决现有的基于静态优势函数的演员‑评论家模型需要大量样本数据支撑训练,以及针对智能体的训练初期效果不理想、模型学习效率低、鲁棒性差的问题。

著录项

  • 公开/公告号CN113392952A

    专利类型发明专利

  • 公开/公告日2021-09-14

    原文格式PDF

  • 申请/专利权人 吉林大学;

    申请/专利号CN202110564559.7

  • 申请日2021-05-24

  • 分类号G06N3/00(20060101);G06N20/00(20190101);

  • 代理机构11528 北京恒博知识产权代理有限公司;

  • 代理人张晓芳

  • 地址 130012 吉林省长春市前进大街2699号

  • 入库时间 2023-06-19 12:35:33

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号