首页> 外文学位 >Optimal Time Scales for Reinforcement Learning Behaviour Strategies.
【24h】

Optimal Time Scales for Reinforcement Learning Behaviour Strategies.

机译:强化学习行为策略的最佳时标。

获取原文
获取原文并翻译 | 示例

摘要

Reinforcement Learning is a branch of Artificial Intelligence addressing the problem of single-agent autonomous sequential decision making. It proposes computational models which do not rely on the complete knowledge of the dynamics of stochastic environments. Options are a formalism used to temporally extend actions towards hierarchically organized behaviour, a concept used to improve learning in large-scale problems. In this thesis we propose a new approach for generating options. Given controllers or behaviour policies as prior knowledge, we learn how to switch between these policies by optimizing the expected total discounted reward of the hierarchical behaviour. We derive gradient descent-based algorithms for learning optimal termination conditions of options, based on a new option termination representation. We provide theoretical guarantees and extentions of widely used Reinforcement Learning algorithms when options have variable time-scales. Finally, we incorporate the proposed approach into policy-gradient methods with linear function approximation.
机译:强化学习是人工智能的一个分支,致力于解决单主体自主顺序决策问题。它提出了不依赖于随机环境动力学的完整知识的计算模型。选项是一种形式主义,用于将行为暂时扩展到层次化的行为,该概念用于改善大规模问题的学习。本文提出了一种生成期权的新方法。给定控制器或行为策略作为先验知识,我们将学习如何通过优化预期的分层行为的总折价奖励来在这些策略之间进行切换。我们基于新的期权终止表示法,导出用于学习期权最佳终止条件的基于梯度下降的算法。当选项具有可变的时标时,我们提供广泛使用的强化学习算法的理论保证和范围。最后,我们将提出的方法结合到具有线性函数近似的策略梯度方法中。

著录项

  • 作者

    Comanici, Gheorghe.;

  • 作者单位

    McGill University (Canada).;

  • 授予单位 McGill University (Canada).;
  • 学科 Artificial Intelligence.;Computer Science.
  • 学位 M.Sc.
  • 年度 2010
  • 页码 102 p.
  • 总页数 102
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号