AVERAGE COST OPTIMALITY INEQUALITY FOR MARKOV DECISION PROCESSES WITH BOREL SPACES AND UNIVERSALLY MEASURABLE POLICIES

Yu Huizhen

首页> 外文期刊>SIAM Journal on Control and Optimization >AVERAGE COST OPTIMALITY INEQUALITY FOR MARKOV DECISION PROCESSES WITH BOREL SPACES AND UNIVERSALLY MEASURABLE POLICIES

【24h】

AVERAGE COST OPTIMALITY INEQUALITY FOR MARKOV DECISION PROCESSES WITH BOREL SPACES AND UNIVERSALLY MEASURABLE POLICIES

机译：Markov决策过程的平均成本优化不等式与Borel空间和普遍可衡量的政策

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

We consider average-cost Markov decision processes (MDPs) with Borel state and action spaces and universally measurable policies. For the nonnegative cost model and an unbounded cost model with a Lyapunov-type stability character, we introduce a set of new conditions under which we prove the average cost optimality inequality (ACOI) via the vanishing discount factor approach. Unlike most existing results on the ACOI, our result does not require any compactness and continuity conditions on the MDPs. Instead, the main idea is to use the almost-uniform-convergence property of a pointwise convergent sequence of measurable functions as asserted in Egoroff's theorem. Our conditions are formulated in order to exploit this property. Among others, we require that for each state, on selected subsets of actions at that state, the state transition stochastic kernel is majorized by finite measures. We combine this majorization property of the transition kernel with Egoroff's theorem to prove the ACOI.

机译：我们将平均成本马尔可夫决策过程（MDP）视为Borel状态和行动空间以及普遍可衡量的政策。对于非负性成本模式和具有Lyapunov型稳定性特征的无限成本模型，我们介绍了一系列新的条件，我们通过消失折扣因子方法来证明平均成本最优性不等式（ACOI）。与ACOI上的大多数现有结果不同，我们的结果不需要对MDP的任何紧凑性和连续性条件。相反，主要思想是使用令人衡量的可测量功能的几乎均匀的收敛性，如Egoroff的定理所称。我们的条件是制定的，以利用此属性。其中，我们要求为每个状态，在该状态的选定行动子集上，状态转换随机内核主要由有限措施大大化。我们将过渡内核的大大化属性与Egoroff的定理结合起来证明了ACOI。

著录项

来源
《SIAM Journal on Control and Optimization》 |2020年第4期|共34页
作者
Yu Huizhen;
展开▼
作者单位

Univ Alberta Dept Comp Sci Edmonton AB T6G 2N8 Canada;

展开▼
收录信息
原文格式 PDF
正文语种 eng
中图分类运筹学;控制论、信息论（数学理论）;
关键词
Markov decision processes; Borel spaces; universally measurable policies; average cost; optimality inequality; majorization conditions;

机译：马尔可夫决策过程;Borel空间;普遍可衡量的政策;平均成本;最优性不等式;主要化条件;

相似文献

外文文献
中文文献
专利

1. AVERAGE COST OPTIMALITY INEQUALITY FOR MARKOV DECISION PROCESSES WITH BOREL SPACES AND UNIVERSALLY MEASURABLE POLICIES [J] . Yu Huizhen SIAM Journal on Control and Optimization . 2020,第4期

机译：Markov决策过程的平均成本优化不等式与Borel空间和普遍可衡量的政策
2. A PERTURBATION APPROACH TO APPROXIMATE VALUE ITERATION FOR AVERAGE COST MARKOV DECISION PROCESSES WITH BOREL SPACES AND BOUNDED COSTS [J] . Vega-Amaya Oscar, Lopez-Borbon Joaqun Kybernetika . 2019,第1期

机译：具有Borel空间和界限成本的平均成本马尔可夫决策过程近似值迭代的扰动方法
3. Constrained Markov decision processes in Borel spaces: from discounted to average optimality [J] . Mendoza-Perez Armando F., Jasso-Fuentes Hector, De-la-Cruz Courtois Omar A. Mathematical methods of operations research . 2016,第3期

机译：Borel空间中的约束Markov决策过程：从折现到平均最优
4. Average Optimality for Markov Decision Processes in Borel Spaces: New Conditions and Approaches [C] . Xianping Guo, Quanxin Zhu Chinese Control Conference vol.1; 20040810-13; Wuxi(CN) . 2004

机译：Borel空间中Markov决策过程的平均最优性：新条件和新方法
5. SEMI-MARKOV INVESTMENT DECISION PROCESSES WITH INFORMATION FLOW AND VARIABLE TRANSACTION COSTS. [D] . ZAHEDI-DADKHAH, FATEMEH. 1975

机译：具有信息流和可变交易成本的SEMI-MARKOV投资决策过程。
6. Evolving Robust Policy Coverage Sets in Multi-Objective Markov Decision Processes Through Intrinsically Motivated Self-Play [O] . Sherif Abdelfattah, Kathryn Kasmarik, Jiankun Hu 2018

机译：通过内在动机的自我博弈在多目标马尔可夫决策过程中发展稳健的政策覆盖范围
7. Optimality Inequalities for Average Cost Markov Decision Processes and the Optimality of (s,S) Policies [O] . Feinberg E. A., Lewis M. E. 2006

机译：平均成本马尔可夫决策过程的最优性不等式和（s，S）策略的最优性
8. Blackwell Optimality in the Class of All Policies in Markov Decision Chains witha Borel State Space and Unbounded Rewards [R] . Hordijk, A., Yushkevich, A. A. 2000

机译：具有Borel状态空间和无界奖励的马尔可夫决策链中所有策略类的Blackwell最优性

AVERAGE COST OPTIMALITY INEQUALITY FOR MARKOV DECISION PROCESSES WITH BOREL SPACES AND UNIVERSALLY MEASURABLE POLICIES

摘要

著录项

相似文献

相关主题

期刊订阅