首页> 外国专利> DISTRIBUTED TRAINING USING OFF-POLICY ACTOR-CRITIC REINFORCEMENT LEARNING

DISTRIBUTED TRAINING USING OFF-POLICY ACTOR-CRITIC REINFORCEMENT LEARNING

机译：利用非政策性行为者批评式强化学习进行分布式培训

页面导航

摘要
著录项
相似文献

摘要

Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for training an action selection neural network used to select actions to be performed by an agent interacting with an environment. In one aspect, a system comprises a plurality of actor computing units and a plurality of learner computing units. The actor computing units generate experience tuple trajectories that are used by the learner computing units to update learner action selection neural network parameters using a reinforcement learning technique. The reinforcement learning technique may be an off-policy actor critic reinforcement learning technique.

机译：方法，系统和装置，包括编码在计算机存储介质上的计算机程序，用于训练动作选择神经网络，该动作选择神经网络用于选择要由与环境交互的代理执行的动作。在一个方面，一种系统包括多个演员计算单元和多个学习者计算单元。参与者计算单元生成体验元组轨迹，学习者计算单元使用该体验元组轨迹来使用强化学习技术来更新学习者动作选择神经网络参数。强化学习技术可以是脱离政策的演员批评家强化学习技术。

著录项

公开/公告号EP3698291A1

专利类型
公开/公告日2020-08-26

原文格式PDF
申请/专利权人 DEEPMIND TECHNOLOGIES LIMITED;
展开▼

申请/专利号EP20190703679
发明设计人 SOYER HUBERT JOSEF;ESPEHOLT LASSE;SIMONYAN KAREN;DORON YOTAM;FIROIU VLAD;MNIH VOLODYMYR;KAVUKCUOGLU KORAY;MUNOS REMI;WARD THOMAS;HARLEY TIMOTHY JAMES ALEXANDER;DUNNING IAIN;
展开▼

申请日2019-02-05
分类号G06N3/04;G06N3/08;
国家 EP
入库时间 2022-08-21 11:40:05

相似文献

专利
外文文献
中文文献