首页> 外国专利> SYSTEM AND METHODS FOR INTRINSIC REWARD REINFORCEMENT LEARNING

SYSTEM AND METHODS FOR INTRINSIC REWARD REINFORCEMENT LEARNING

机译:内部奖励补习的系统和方法

摘要

A learning agent is disclosed that receives data in sequence from one or more sequential data sources; generates a model modelling sequences of data and actions; and selects an action maximizing the expected future value of a reward function, wherein the reward function depends at least partly on at least one of: a measure of the change in complexity of the model, or a measure of the complexity of the change in the model. The measure of the change in complexity of the model may be based on, for example, the change in description length of the first part of a two-part code describing one or more sequences of received data and actions, the change in description length of a statistical distribution modelling, the description length of the change in the first part of the two-part code, or the description length of the change in the statistical distribution modelling.
机译:公开了一种学习代理,其从一个或多个顺序数据源顺序地接收数据。生成对数据和动作序列建模的模型;并选择使奖励函数的预期未来价值最大化的动作,其中奖励函数至少部分取决于以下至少一项:模型复杂度变化的度量,或模型复杂度变化的度量。模型。模型的复杂度变化的度量可以基于例如描述接收数据和动作的一个或多个序列的两部分代码的第一部分的描述长度的变化,描述的变化的长度。统计分布建模,两部分代码的第一部分中的更改的描述长度或统计分布建模中的更改的描述长度。

著录项

  • 公开/公告号US2017364829A1

    专利类型

  • 公开/公告日2017-12-21

    原文格式PDF

  • 申请/专利权人 GRAHAM FYFFE;

    申请/专利号US201715623199

  • 发明设计人 GRAHAM FYFFE;

    申请日2017-06-14

  • 分类号G06N99;G06F17/50;

  • 国家 US

  • 入库时间 2022-08-21 13:02:51

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号