Nonstationary denumerable state Markov Decision Processes - with average variance criterion

Xianping Guo

首页> 外文期刊>Mathematical methods of operations research >Nonstationary denumerable state Markov Decision Processes - with average variance criterion

【24h】

Nonstationary denumerable state Markov Decision Processes - with average variance criterion

机译：非平稳可数状态马尔可夫决策过程-具有平均方差准则

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

In this paper, we consider the nonstationary Markov decision processes (MDP, for short) with average variance criterion on a countable state space, finite action spaces and bounded one-step rewards. From the optimality equations which are provided in this paper, we translate the average variance criterion into a new average expected cost criterion. Then we prove that there exists a Markov Policy, Which is optimal in an original average expected reward criterion, that minimizies the average variance in the class of optimal policies for the original average expected reward criterion.

机译：在本文中，我们考虑了在可数状态空间，有限作用空间和有界单步奖励下具有平均方差准则的非平稳Markov决策过程（简称MDP）。根据本文提供的最优性方程，我们将平均方差准则转换为新的平均预期成本准则。然后，我们证明存在一个马尔可夫策略，该策略在原始平均期望奖励准则中是最佳的，它可以将针对原始平均期望奖励准则的最优策略类别中的平均方差最小化。

著录项

来源
《Mathematical methods of operations research》 |1999年第1期|共10页
作者
Xianping Guo;
展开▼
作者单位

展开▼
收录信息
原文格式 PDF
正文语种 eng
中图分类数学;
关键词
discrete - time markov decision processes; average expected criteria; optimality equations; average variance criterion; optimal markov policies;

机译：离散-时间马尔可夫决策过程;平均期望标准;最优方程;平均方差准则;最优马尔可夫策略;

相似文献

外文文献
中文文献
专利

1. Nonstationary denumerable state Markov Decision Processes - with average variance criterion [J] . Xianping Guo Mathematical methods of operations research . 1999,第1期

机译：非平稳可数状态马尔可夫决策过程-具有平均方差准则
2. Denumerable-state continuous-time Markov decision processes with unbounded transition and reward rates under the discounted criterion [J] . Guo XP., Zhu WP. Journal of Applied Probability . 2002,第2期

机译：折现准则下无穷过渡和奖励率的可数状态连续时间马尔可夫决策过程
3. Denumerable continuous-time Markov decision processes with multiconstraints on average costs [J] . Qiuli Liu, Hangsheng Tan, Xianping Guo International journal of systems science . 2012,第1a3期

机译：具有平均成本多约束的可数连续时间马尔可夫决策过程
4. Denumerable controlled Markov chains with average reward criterion: sample path optimality [C] . Cavazos-Cadena, R., Fernandez-Gaucheraud, . 1994

机译：具有平均奖励标准的可数控制马尔可夫链：样本路径最优
5. Controlled Markov chains with risk-sensitive average cost criterion. [D] . Brau Rojas, Agustin. 1999

机译：具有风险敏感平均成本准则的受控马尔可夫链。
6. Developing a weighted reward criterion for the Markov-based decision of road maintenance [O] . Hui Gao, Xueqing Zhang, Yashuai Li -1

机译：为基于Markov的道路养护决策制定加权奖励标准
7. Denumerable state semi-Markov decision processes with unbounded costs, average cost criterion [O] . Federgruen A., Hordijk A., Tijms H.C. 1979

机译：具有无限成本，平均成本准则的可数状态半马尔可夫决策过程
8. Denumerables State Semi-Markov Decision Processes with Unbounded Costs, Average Cost Criterion [R] . Federgruen, A., Hordijk, A., Tijms, H. C. 1978

机译：具有无界成本，平均成本准则的可量化状态半马尔可夫决策过程

Nonstationary denumerable state Markov Decision Processes - with average variance criterion

摘要

著录项

相似文献

相关主题

期刊订阅