Robust topological policy iteration for infinite horizon bounded Markov Decision Processes

Silva Reis Willy Arthur; de Barros Leliane Nunes; Delgado Karina Valdivia

首页> 外文期刊>高分子論文集 >Robust topological policy iteration for infinite horizon bounded Markov Decision Processes

【24h】

Robust topological policy iteration for infinite horizon bounded Markov Decision Processes

机译：无限地平线有界Markov决策过程的鲁棒拓扑策略迭代

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

Markov Decision Processes (MDPS) are commonly used to solve sequential decision problems. A less restrictive model is the Bounded-parameter MDP (BMDP) that allows: (i) the transition function to be expressed in terms of probability intervals and (ii) reasoning about a robust solution, i.e., the best solution under the worst model. In this paper, we propose the Robust Topological Policy Iteration (RTPI) algorithm which is a new policy iteration algorithm for infinite horizon BMDPs based on a partition of the state space. The empirical results show that the more structured the domain, the better is the performance of RTPI. (C) 2018 Elsevier Inc. All rights reserved.

机译：马尔可夫决策过程（MDPS）通常用于解决顺序决策问题。限制参数较小的模型是有界参数MDP（BMDP），它允许：（i）用概率间隔表示过渡函数，以及（ii）推理可靠的解决方案，即最坏模型下的最佳解决方案。在本文中，我们提出了鲁棒拓扑策略迭代（RTPI）算法，它是一种基于状态空间分区的无限层BMDP的新策略迭代算法。实证结果表明，域越结构化，RTPI的性能越好。（C）2018 Elsevier Inc.保留所有权利。

著录项

来源
《高分子論文集》 |2019年第2期|287-304|共18页
作者
Silva Reis Willy Arthur; de Barros Leliane Nunes; Delgado Karina Valdivia;
展开▼
作者单位

Univ Sao Paulo, Inst Math & Stat, R Matao 1010, Sao Paulo, Brazil;

Univ Sao Paulo, Inst Math & Stat, R Matao 1010, Sao Paulo, Brazil;

Univ Sao Paulo, Sch Arts Sci & Humanities, Av Arlindo Bettio 1000, Sao Paulo, Brazil;

展开▼
收录信息美国《科学引文索引》(SCI);
原文格式 PDF
正文语种 eng
中图分类
关键词
Probabilistic planning; Bounded-parameter Markov Decision Processes; Asynchronous policy iteration;

机译：概率规划;边界参数马尔可夫决策过程;异步策略迭代;

相似文献

外文文献
中文文献
专利

1. Approximate Robust Policy Iteration Using Multilayer Perceptron Neural Networks for Discounted Infinite-Horizon Markov Decision Processes With Uncertain Correlated Transition Matrices [J] . Li B., Si J. Neural Networks, IEEE Transactions on . 2010,第8期

机译：不确定关联Markov决策过程的多层感知器神经网络的近似鲁棒策略迭代
2. Policy-based branch-and-bound for infinite-horizon Multi-model Markov decision processes [J] . Ahluwalia Vinayak S., Steimle Lauren N., Denton Brian T. Computers & operations research . 2021,第Feba期

机译：基于策略的分支和绑定无限的Horizo n多模型马尔可夫决策过程
3. APPROXIMATE FIXED POINT ITERATION WITH AN APPLICATION TO INFINITE HORIZON MARKOV DECISION PROCESSES [J] . ANTHONY ALMUDEVAR SIAM Journal on Control and Optimization . 2009,第5期

机译：近似定点迭代及其在无限马尔可夫决策过程中的应用
4. Approximate Robust Policy Iteration for Discounted Infinite-Horizon Markov Decision Processes with Uncertain Stationary Parametric Transition Matrices [C] . Baohua Li, Si, J. Neural Networks, The 2007 IEEE International Joint Conference on . 2007

机译：不确定平稳参数化转移矩阵的无穷折扣马尔可夫决策过程的近似鲁棒策略迭代
5. Acceleration of Iterative Methods for Markov Decision Processes. [D] . Shlakhter, Oleksandr. 2010

机译：马尔可夫决策过程的迭代方法的加速。
6. Evolving Robust Policy Coverage Sets in Multi-Objective Markov Decision Processes Through Intrinsically Motivated Self-Play [O] . Sherif Abdelfattah, Kathryn Kasmarik, Jiankun Hu 2018

机译：通过内在动机的自我博弈在多目标马尔可夫决策过程中发展稳健的政策覆盖范围
7. On the Use of Non-Stationary Policies for Infinite-Horizon Discounted Markov Decision Processes [O] . Scherrer, Bruno 2012

机译：论无限期地震折扣的非平稳政策马尔可夫决策过程
8. Partially Observable Markov Decision Processes over an Infinite Planning Horizon with Discounting. [R] . wollmer,richard d. 1976

机译：具有贴现性的无限规划期间的部分可观察马尔可夫决策过程。

Robust topological policy iteration for infinite horizon bounded Markov Decision Processes

摘要

著录项

相似文献

相关主题

期刊订阅