首页> 中国专利> 自适应双自驱动深度确定性策略梯度强化学习方法

自适应双自驱动深度确定性策略梯度强化学习方法

摘要

本发明涉及一种用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法,使用多头自驱动架构提高评判家评估性能的同时,提高执行者对环境探索的效率,并且能够一定程度上优化深度确定性策略梯度(DDPG)算法,缓解上述环境复杂性和随机性等不利影响,加速了DDPG算法的收敛,在训练稳定的基础上提高了性能。实验证明,本发明能够在实验数据集(模拟环境)达到训练速度的最快、性能最佳、以及稳定性最好的三个优点,在具体数值上超过了已知解决方案。

著录项

  • 公开/公告号CN109523029B

    专利类型发明专利

  • 公开/公告日2020-11-03

    原文格式PDF

  • 申请/专利权人 清华大学深圳研究生院;

    申请/专利号CN201811144686.6

  • 发明设计人 袁春;郑卓彬;朱新瑞;

    申请日2018-09-28

  • 分类号G06N20/00(20190101);

  • 代理机构44223 深圳新创友知识产权代理有限公司;

  • 代理人江耀纯

  • 地址 518055 广东省深圳市南山区西丽大学城清华校区

  • 入库时间 2022-08-23 11:20:15

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号