Partially Observable Total-Cost Markov Decision Processes with Weakly Continuous Transition Probabilities

Feinberg Eugene A.; Kasyanov Pavlo O.; Zgurovsky Michael Z.

首页> 外文期刊>Mathematics of operations research >Partially Observable Total-Cost Markov Decision Processes with Weakly Continuous Transition Probabilities

【24h】

Partially Observable Total-Cost Markov Decision Processes with Weakly Continuous Transition Probabilities

机译：具有弱连续转移概率的部分可观测的总成本马尔可夫决策过程

获取原文

获取原文并翻译 | 示例

获取外文期刊封面目录资料

开具论文收录证明 >>

文献代查 >>

文献数据库（团队版） >>

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

This paper describes sufficient conditions for the existence of optimal policies for partially observable Markov decision processes (POMDPs) with Borel state, observation, and action sets, when the goal is to minimize the expected total costs over finite or infinite horizons. For infinite-horizon problems, one-step costs are either discounted or assumed to be nonnegative. Action sets may be noncompact and one-step cost functions may be unbounded. The introduced conditions are also sufficient for the validity of optimality equations, semicontinuity of value functions, and convergence of value iterations to optimal values. Since POMDPs can be reduced to completely observable Markov decision processes (COMDPs), whose states are posterior state distributions, this paper focuses on the validity of the above-mentioned optimality properties for COMDPs. The central question is whether the transition probabilities for the COMDP are weakly continuous. We introduce sufficient conditions for this and show that the transition probabilities for a COMDP are weakly continuous, if transition probabilities of the underlying Markov decision process are weakly continuous and observation probabilities for the POMDP are continuous in total variation. Moreover, the continuity in total variation of the observation probabilities cannot be weakened to setwise continuity. The results are illustrated with counterexamples and examples.

机译：当目标是使有限或无限范围内的预期总成本最小化时，本文描述了具有Borel状态，观察值和动作集的部分可观察的Markov决策过程（POMDP）的最优策略的存在的充分条件。对于无限水平问题，单步成本可以打折，也可以假定为非负。动作集可能不紧凑，一步成本函数可能是不受限制的。引入的条件对于优化方程的有效性，值函数的半连续性以及将值迭代收敛到最优值也足够了。由于可以将POMDP简化为状态为后状态分布的完全可观察的马尔可夫决策过程（COMDP），因此本文重点讨论上述最优属性对COMDP的有效性。中心问题是COMDP的过渡概率是否是弱连续的。我们为此提供了充分的条件，并表明，如果基础马尔可夫决策过程的转移概率是弱连续的，而POMDP的观察概率在总变化中是连续的，则COMDP的转移概率是弱连续的。而且，不能将观测概率的总变化的连续性减弱为设定连续性。通过反例和示例说明了结果。

著录项

来源
《Mathematics of operations research》 |2016年第2期|共26页
作者
Feinberg Eugene A.; Kasyanov Pavlo O.; Zgurovsky Michael Z.;
展开▼
作者单位

展开▼
收录信息
原文格式 PDF
正文语种 eng
中图分类运筹学;
关键词
partially observable Markov decision processes; total cost; optimality inequality; optimal policy;

机译：部分可观的马尔可夫决策过程;总成本;最优不等式;最优策略;

相似文献

外文文献
中文文献
专利

1. 具有部分未知转移概率的广义马尔可夫跳变系统的变结构控制 [J] . 庄会选, 孙青林, 陈增强东南大学学报（英文版） . 2018,第004期
2. Partially Observable Total-Cost Markov Decision Processes with Weakly Continuous Transition Probabilities [J] . Feinberg Eugene A., Kasyanov Pavlo O., Zgurovsky Michael Z. Mathematics of operations research . 2016,第2期

机译：具有弱连续转移概率的部分可观测的总成本马尔可夫决策过程
3. Continuous-Observation Partially Observable Semi-Markov Decision Processes for Machine Maintenance [J] . Mimi Zhang, Matthew Revie Reliability, IEEE Transactions on . 2017,第1期

机译：机器维护的连续观测部分可观测的半马尔可夫决策过程
4. Maintenance planning using continuous-state partially observable Markov decision processes and non-linear action models [J] . Schobi Roland, Chatzi Eleni N. Structure and Infrastructure Engineering . 2016,第7a9期

机译：使用连续状态部分可观察的Markov决策过程和非线性作用模型进行维护计划
5. Optimality conditions for total-cost Partially Observable Markov Decision Processes [C] . Feinberg E.A., Kasyanov P.O., Zgurovsky M.Z. IEEE Annual Conference on Decision and Control . 2013

机译：总成本部分可观马尔可夫决策过程的最优性条件
6. Modern Methods of Hidden Markov Models and Partially Observable Markov Decision Processes in Biostatistics [D] . Xu, Zekun. 2020

机译：隐藏马尔可夫模型的现代方法和止痛性的部分可观察马尔可夫决策过程
7. Decision Making Under Uncertainty: A Neural Model Based on Partially Observable Markov Decision Processes [O] . Rajesh P. N. Rao 2010

机译：不确定性下的决策：基于部分可观察的马尔可夫决策过程的神经模型
8. Partially Observable Total-Cost Markov Decision Processes with Weakly Continuous Transition Probabilities [O] . Zgurovsky, M. Z., Kasyanov, P. O., Feinberg, E. A., 2016

机译：具有弱连续转移概率的部分可观测的总成本马尔可夫决策过程
9. Cooperation and Coordination Between Fuzzy Reinforcement Learning Agents in Continuous State Partially Observable Markov Decision Processes [R] . Berenji, Hamid R., Vengerov, David 1999

机译：连续状态部分可观测马尔可夫决策过程中模糊强化学习agent的协作与协调

Partially Observable Total-Cost Markov Decision Processes with Weakly Continuous Transition Probabilities

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅