Modeling and estimating passive dynamics distributions in linearly solvable Markov decision processes

Mauricio BURDELIS; Kazushi IKEDA

首页> 外文期刊>電子情報通信学会技術研究報告 >Modeling and estimating passive dynamics distributions in linearly solvable Markov decision processes

【24h】

Modeling and estimating passive dynamics distributions in linearly solvable Markov decision processes

机译：线性可解马尔可夫决策过程中的被动动力学分布建模和估计

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

Todorovにより，強化学習が簡単化されるマルコフ決定過程のクラスが提案されている．すなわち，特定の条件下では，最適行動選択のためのベルマン方程式が線形になり，最適な状態遷移確率が解析的に得られる．しかしながら，実問題に対して線形可解マルコフ決定過程の枠組みを適用するには，システムの受動ダイナミクスを知る必要がある．本研究では，強化学習においてシステムのダイナミクスを推定する方法を提案する．%Todorov has recently introduced a class of linearly-solvable Markov decision processes (LSMDPs) which greatly simplifies reinforcement learning. Under some specific conditions, the problem of choosing optimal actions becomes linear, and the optimal transition probabilities can be obtained analytically. In order to apply the LSMDPs framework to realistic problems, it is necessary to know the passive dynamics distribution, which is crucial in the theory. The purpose of the present work is to propose a method to estimate the passive dynamics distribution in reinforcement learning problems.

机译：Todorov提出了一类可简化强化学习的Markov决策过程。即，在特定条件下，用于最佳动作选择的贝尔曼方程变为线性，并且通过分析获得最佳状态转移概率。但是，为了将线性可解马尔可夫决策过程的框架应用于实际问题，有必要了解系统的被动动力学。在这项研究中，我们提出了一种在强化学习中估计系统动力学的方法。托多罗夫（％Todorov）最近引入了一类可线性求解的马尔可夫决策过程（LSMDP），该过程极大地简化了强化学习，在某些特定条件下，选择最佳动作的问题变为线性问题，并且可以通过解析获得最佳转移概率。将LSMDPs框架应用于现实问题，有必要了解被动动力学分布，这在理论上是至关重要的。本文的目的是提出一种估计强化学习问题中被动动力学分布的方法。

著录项

来源
《電子情報通信学会技術研究報告》 |2011年第157期|p.123-128|共6页
作者
Mauricio BURDELIS; Kazushi IKEDA;
展开▼
作者单位

Graduate School of Information Science, Nara Institute of Science and Technology 8916-5, Takayama-cho, Ikoma,Nara, 630-0192 Japan;

Graduate School of Information Science, Nara Institute of Science and Technology 8916-5, Takayama-cho, Ikoma,Nara, 630-0192 Japan;

展开▼
收录信息
原文格式 PDF
正文语种 eng
中图分类
关键词
linear bellman equation; reinforcement learning;

机译：线性贝尔曼方程强化学习;

相似文献

外文文献
中文文献
专利

1. Modeling and estimating passive dynamics distributions in linearly solvable Markov decision processes [J] . Mauricio BURDELIS, Kazushi IKEDA 電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing . 2011,第157期

机译：线性可解马尔可夫决策过程中的被动动力学分布建模和估计
2. Estimating Passive Dynamics Distributions and State Costs in Linearly Solvable Markov Decision Processes during Z Learning Execution [J] . Mauricio BURDELIS, Kazushi IKEDA SICE Journal of Control, Measurement, and System Integration (SICE JCMSI) . 2014,第1期

机译：Z学习执行过程中线性可解马尔可夫决策过程中的被动动力学分布和状态成本估计
3. Fast rates for online learning in Linearly Solvable Markov Decision Processes [J] . Gergely Neu, Vicen? Gómez JMLR: Workshop and Conference Proceedings . 2017,第2009期

机译：线性可解马尔可夫决策过程中的在线学习快速速率
4. Linear Programming solvers for Markov Decision Processes [C] . Diego Bello, German Riano IEEE Systems and Information Engineering Design Symposium . 2006

机译：马尔可夫决策过程的线性编程求解器
5. Modern Methods of Hidden Markov Models and Partially Observable Markov Decision Processes in Biostatistics [D] . Xu, Zekun. 2020

机译：隐藏马尔可夫模型的现代方法和止痛性的部分可观察马尔可夫决策过程
6. Evaluation of linearly solvable Markov decision process with dynamic model learning in a mobile robot navigation task [O] . Ken Kinjo, Eiji Uchibe, Kenji Doya 2013

机译：动态模型学习在移动机器人导航任务中线性可解马尔可夫决策过程的评估
7. Evaluation of linearly solvable Markov decision process with dynamic model learning in a mobile robot navigation task [O] . Ken eKinjo, Eiji eUchibe, Kenji eDoya 2013

机译：动态模型学习在移动机器人导航任务中的线性可解马尔可夫决策过程评估

Modeling and estimating passive dynamics distributions in linearly solvable Markov decision processes

摘要

著录项

相似文献

相关主题

期刊订阅