首页> 中国专利> 共享循环神经网络的高效值函数迭代强化学习方法

共享循环神经网络的高效值函数迭代强化学习方法

摘要

本发明公开了一种共享循环神经网络的高效值函数迭代强化学习方法,该方法包括:通过智能体与环境进行交互获得样本数据,并将样本数据添加至样本池中;在样本池中随机选取样本数据作为训练样本数据;根据训练样本数据对Critic网络的输出进行归一化,并对其MLP网络和共享LSTM参数进行更新;循环迭代对Critic网络更新两次后,根据训练样本数据对Actor网络的MLP部分参数进行更新;对Critic网络中的第三Critic网络和第四Critic网络、Actor网络的第二Actor网络参数进行更新。该方法将循环神经网络与值函数迭代相结合,提高算法训练效率,缩短算法训练时间。

著录项

  • 公开/公告号CN111582441A

    专利类型发明专利

  • 公开/公告日2020-08-25

    原文格式PDF

  • 申请/专利权人 清华大学;

    申请/专利号CN202010298982.2

  • 发明设计人 杨君;薛晨;芦维宁;梁斌;赵千川;

    申请日2020-04-16

  • 分类号G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11201 北京清亦华知识产权代理事务所(普通合伙);

  • 代理人王艳斌

  • 地址 100084 北京市海淀区清华园

  • 入库时间 2023-12-17 11:49:32

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-08-25

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号