首页> 中国专利> 一种基于值函数的参数化深度强化学习算法

一种基于值函数的参数化深度强化学习算法

摘要

本发明属于深度强化学习技术领域,具体为一种基于值函数的参数化深度强化学习算法。本发明是将强化学习中的状态动作值函数(Q值)分解为状态值函数(V值)和优势函数(A值)之和,V值用于估计各离散动作下的期望累计奖励,A值用于估计各连续动作带来的累计奖励偏差;通过构建单个神经网络,同时输出最优离散动作和连续动作选择。本发明算法同时解决了Q值过估计问题,在动作决策时离散动作V值仅取决于其对应的连续动作,在神经网络训练过程中连续动作更新仅与其对应的离散动作有关。仿真实验结果表明,相比于其余参数化强化学习算法,本发明具有更快的收敛速度和更好的收敛效果。

著录项

  • 公开/公告号CN113569466A

    专利类型发明专利

  • 公开/公告日2021-10-29

    原文格式PDF

  • 申请/专利号CN202110772706.X

  • 发明设计人 徐跃东;游新宇;戴连贵;邢万勇;

    申请日2021-07-08

  • 分类号G06F30/27(20200101);G06N3/04(20060101);G06N3/08(20060101);G06F111/08(20200101);

  • 代理机构31200 上海正旦专利代理有限公司;

  • 代理人陆飞;陆尤

  • 地址 510663 广东省广州市黄埔区科学城科汇三街5号601房

  • 入库时间 2023-06-19 13:02:24

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号