首页> 中国专利> 通过双演员评论家算法进行强化学习

通过双演员评论家算法进行强化学习

摘要

双演员评论家(DAC)强化学习算法提供稳定的策略改进和激进的神经网络优化,而不会对策略进行灾难性过度拟合。DAC使用离线和在线学习这两者中的任意数据历史来训练模型,并且能够被用于平滑地改进通过某种其他手段学习或定义的现有策略。最后,DAC能够优化具有离散和连续动作空间的强化学习问题。

著录项

  • 公开/公告号CN113574547A

    专利类型发明专利

  • 公开/公告日2021-10-29

    原文格式PDF

  • 申请/专利权人 索尼集团公司;美国索尼公司;

    申请/专利号CN202080020626.2

  • 发明设计人 J·麦克哥拉山;

    申请日2020-02-25

  • 分类号G06N20/00(20060101);

  • 代理机构11038 中国贸促会专利商标事务所有限公司;

  • 代理人程晨

  • 地址 日本东京

  • 入库时间 2023-06-19 13:02:24

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号