Approximate Robust Policy Iteration for Discounted Infinite-Horizon Markov Decision Processes with Uncertain Stationary Parametric Transition Matrices

机译：不确定平稳参数化转移矩阵的无穷折扣马尔可夫决策过程的近似鲁棒策略迭代

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

We consider Markov decision processes with finite states, finite actions, and discounted infinite-horizon cost in the deterministic policy space. State transition matrices are uncertain but with stationary parameterization. The uncertainty in transition m

机译：我们认为Markov决策过程具有有限状态，有限行动和确定性政策空间中的折扣无限地平线成本。状态转换矩阵不确定，但静止参数化。过渡的不确定性

著录项

来源
《Neural Networks, The 2007 IEEE International Joint Conference on》|2007年|P.2052-2057|共6页
会议地点
作者
Baohua Li; Si; J.;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类工业技术;
关键词
Markov processes; estimation theory; infinite horizon; iterative methods; matrix algebra; multilayer perceptrons; approximate robust policy iteration; controller design; deterministic policy space; discounted infinite-horizon Markov decision processes; estimation;

机译：马尔可夫过程;估计理论;无限视野;迭代方法;矩阵代数;多层感知器;近似鲁棒策略迭代;控制器设计;确定性策略空间;无限制无限水平马尔可夫决策过程;估计;

相似文献

外文文献
中文文献
专利

1. Approximate Robust Policy Iteration Using Multilayer Perceptron Neural Networks for Discounted Infinite-Horizon Markov Decision Processes With Uncertain Correlated Transition Matrices [J] . Li B., Si J. Neural Networks, IEEE Transactions on . 2010,第8期

机译：不确定关联Markov决策过程的多层感知器神经网络的近似鲁棒策略迭代
2. Robust Optimality for Discounted Infinite-Horizon Markov Decision Processes With Uncertain Transition Matrices [J] . Baohua Li, Si J. IEEE Transactions on Automatic Control . 2008,第9期

机译：不确定转移矩阵的无穷折扣马尔可夫决策过程的鲁棒最优性
3. Robust control of Markov decision processes with uncertain transition matrices [J] . Nilim A, El Ghaoui L Operations Research: The Journal of the Operations Research Society of America . 2005,第5期

机译：具有不确定转移矩阵的Markov决策过程的鲁棒控制
4. Approximate Robust Policy Iteration for Discounted Infinite-Horizon Markov Decision Processes with Uncertain Stationary Parametric Transition Matrices [C] . Baohua Li, Si, J. Neural Networks, The 2007 IEEE International Joint Conference on . 2007

机译：不确定平稳参数化转移矩阵的无穷折扣马尔可夫决策过程的近似鲁棒策略迭代
5. A Markovian Optimization Model for Pavement Maintenance Using Policy Iteration Algorithm with Discounted Road-user and Agency Costs [D] . Narh-Dometey, Anita. 2019

机译：利用折扣道路用户和机构成本的策略迭代算法的路面维护马尔瓦维亚优化模型
6. Evolving Robust Policy Coverage Sets in Multi-Objective Markov Decision Processes Through Intrinsically Motivated Self-Play [O] . Sherif Abdelfattah, Kathryn Kasmarik, Jiankun Hu 2018

机译：通过内在动机的自我博弈在多目标马尔可夫决策过程中发展稳健的政策覆盖范围
7. On the Use of Non-Stationary Policies for Infinite-Horizon Discounted Markov Decision Processes [O] . Scherrer, Bruno 2012

机译：论无限期地震折扣的非平稳政策马尔可夫决策过程

Approximate Robust Policy Iteration for Discounted Infinite-Horizon Markov Decision Processes with Uncertain Stationary Parametric Transition Matrices

摘要

著录项

相似文献

相关主题

期刊订阅