首页> 外文期刊>電子情報通信学会技術研究報告 >Modeling and estimating passive dynamics distributions in linearly solvable Markov decision processes
【24h】

Modeling and estimating passive dynamics distributions in linearly solvable Markov decision processes

机译:线性可解马尔可夫决策过程中的被动动力学分布建模和估计

获取原文
获取原文并翻译 | 示例
           

摘要

Todorovにより,強化学習が簡単化されるマルコフ決定過程のクラスが提案されている.すなわち,特定の条件下では,最適行動選択のためのベルマン方程式が線形になり,最適な状態遷移確率が解析的に得られる.しかしながら,実問題に対して線形可解マルコフ決定過程の枠組みを適用するには,システムの受動ダイナミクスを知る必要がある.本研究では,強化学習においてシステムのダイナミクスを推定する方法を提案する.%Todorov has recently introduced a class of linearly-solvable Markov decision processes (LSMDPs) which greatly simplifies reinforcement learning. Under some specific conditions, the problem of choosing optimal actions becomes linear, and the optimal transition probabilities can be obtained analytically. In order to apply the LSMDPs framework to realistic problems, it is necessary to know the passive dynamics distribution, which is crucial in the theory. The purpose of the present work is to propose a method to estimate the passive dynamics distribution in reinforcement learning problems.
机译:Todorov提出了一类可简化强化学习的Markov决策过程。即,在特定条件下,用于最佳动作选择的贝尔曼方程变为线性,并且通过分析获得最佳状态转移概率。但是,为了将线性可解马尔可夫决策过程的框架应用于实际问题,有必要了解系统的被动动力学。在这项研究中,我们提出了一种在强化学习中估计系统动力学的方法。托多罗夫(%Todorov)最近引入了一类可线性求解的马尔可夫决策过程(LSMDP),该过程极大地简化了强化学习,在某些特定条件下,选择最佳动作的问题变为线性问题,并且可以通过解析获得最佳转移概率。将LSMDPs框架应用于现实问题,有必要了解被动动力学分布,这在理论上是至关重要的。本文的目的是提出一种估计强化学习问题中被动动力学分布的方法。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号