首页> 外文会议>International Conference on Systems and Control >Learning Upper-Level Policy using Importance Sampling-based Policy Search Method
【24h】

Learning Upper-Level Policy using Importance Sampling-based Policy Search Method

机译:使用基于重要性采样的策略搜索方法学习上级策略

获取原文

摘要

Policy search methods are a successful approach to reinforcement learning. These allow to learn upper-level policies whose main advantage is that these distributions explore directly in the parameter space. The contribution of this paper is to propose an algorithm based on importance sampling methods and local linear regression that uses the samples in an efficient way. In order to get this aim, we propose to include information of all the past samples in the learning process using importance sampling methods. Additionally, we use the gradient direction of the linear local model reward to explore regions where the prediction of the reward could be better.
机译:策略搜索方法是强化学习的成功方法。这些允许学习高级策略,这些策略的主要优点是可以直接在参数空间中探索这些分布。本文的目的是提出一种基于重要性抽样方法和局部线性回归的算法,该算法可以有效地使用样本。为了达到这个目的,我们建议使用重要性抽样方法在学习过程中包括过去所有样本的信息。此外,我们使用线性局部模型奖励的梯度方向来探索奖励预测可能更好的区域。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号