首页> 外国专利> ACCELERATED DEEP REINFORCEMENT LEARNING OF AGENT CONTROL POLICIES

ACCELERATED DEEP REINFORCEMENT LEARNING OF AGENT CONTROL POLICIES

机译:加速了代理控制政策的深度增强学习

摘要

Methods, computer systems, and apparatus, including computer programs encoded on computer storage media, for training a mixture of a plurality of actor-critic policies that is used to control an agent interacting with an environment to perform a task. Each actor-critic policy includes an actor policy and a critic policy. The training includes, for each of one or more transitions, determining a target Q value for the transition from (i) the reward in the transition, and (ii) an imagined return estimate generated by performing one or more iterations of a prediction process to generate one or more predicted future transitions.
机译:方法,计算机系统和装置,包括在计算机存储介质上编码的计算机程序,用于训练用于控制与环境交互以执行任务的代理的多个演员批评策略的混合。 每个演员批评者的政策都包括演员政策和批评政策。 对于一个或多个转换中的每一个,培训包括从(i)转换中的奖励的转换的目标q值,并且(ii)通过执行预测过程的一个或多个迭代来生成的想象返回估计 生成一个或多个预测的未来转换。

著录项

  • 公开/公告号US2022036186A1

    专利类型

  • 公开/公告日2022-02-03

    原文格式PDF

  • 申请/专利权人 WAYMO LLC;

    申请/专利号US202117390800

  • 发明设计人 KHALED REFAAT;KAI DING;

    申请日2021-07-30

  • 分类号G06N3/08;G06F11;G05D1;

  • 国家 US

  • 入库时间 2022-08-24 23:36:23

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号