首页> 外国专利> ROBUST REINFORCEMENT LEARNING FOR CONSTRAINT SATISFACTION WHILE ACCOUNTING FOR MODEL MISSPECIFICATION

ROBUST REINFORCEMENT LEARNING FOR CONSTRAINT SATISFACTION WHILE ACCOUNTING FOR MODEL MISSPECIFICATION

机译:考虑模型错误的约束满足鲁棒强化学习

摘要

Methods, systems, and apparatus, including computer programs encoded on computer storage media, for learning a control policy for controlling an agent. One of the methods includes sampling a mini-batch comprising one or more observation - action - reward tuples generated as a result of interactions of a first agent with a first environment; determining an update to current values of Q network parameters by minimizing a robust constrained temporal difference (TD) error that accounts for possible perturbations of the states of the first environment represented by the observations in the observation - action - reward tuples; and determining, using the Q-value neural network, an update to the policy network parameters using the sampled mini-batch of observation - action - reward tuples.
机译:用于学习用于控制代理的控制策略的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。其中一种方法包括对小批量样品进行取样,该小批量样品包括一个或多个观察-行动-奖励元组,该元组是由于第一试剂与第一环境的相互作用而产生的;通过最小化鲁棒约束时间差(TD)误差来确定Q网络参数当前值的更新,该误差可解释由观察-动作-奖励元组中的观察值表示的第一个环境的状态的可能扰动;以及使用Q值神经网络,使用采样的小批量观察-行动-奖励元组来确定策略网络参数的更新。

著录项

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号