NEW CLASS OF POLICIES IN VECTOR-VALUED MARKOV DECISION PROCESSES

Wakuta K.

首页> 外文期刊>Journal of Mathematical Analysis and Applications >NEW CLASS OF POLICIES IN VECTOR-VALUED MARKOV DECISION PROCESSES

【24h】

NEW CLASS OF POLICIES IN VECTOR-VALUED MARKOV DECISION PROCESSES

机译：价值向量马尔可夫决策过程中的新一类策略

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

For a vector-valued Markov decision process with discounted reward criterion, we introduce a new class of policies called the semi-stationary policies and show that an optimal semi-stationary policy that attains the extreme points of the set of rewards induced by all policies can be described as a combination of optimal stationary policies. (C) 1996 Academic Press, Inc. [References: 5]

机译：对于具有折现奖励标准的向量值Markov决策过程，我们引入了一种称为半平稳策略的新策略，并证明了达到所有策略所引发的奖励集的极点的最优半平稳策略可以被描述为最佳固定政策的组合。（C）1996 Academic Press，Inc. [参考：5]

著录项

来源
《Journal of Mathematical Analysis and Applications》 |1996年第2期|共6页
作者
Wakuta K.;
展开▼
作者单位

展开▼
收录信息
原文格式 PDF
正文语种 eng
中图分类数学;
关键词

相似文献

外文文献
中文文献
专利

1. NEW CLASS OF POLICIES IN VECTOR-VALUED MARKOV DECISION PROCESSES [J] . Wakuta K. Journal of Mathematical Analysis and Applications . 1996,第2期

机译：价值向量马尔可夫决策过程中的新一类策略
2. A note on the structure of value spaces in vector-valued Markov decision processes [J] . Kazuyoshi Wakuta Mathematical methods of operations research . 1999,第1期

机译：关于向量值马尔可夫决策过程中值空间结构的注释
3. Policy learning in continuous-time Markov decision processes using Gaussian Processes [J] . Bartocci Ezio, Bortolussi Luca, Brazdil Tomas, Performance Evaluation . 2017,第nova期

机译：使用高斯过程的连续时间马尔可夫决策过程中的策略学习
4. Sufficiency of Markov policies for continuous-time Markov decision processes and solutions to Kolmogorov's forward equation for jump Markov processes [C] . Feinberg E.A., Mandava M., Shiryaev A.N. IEEE Annual Conference on Decision and Control . 2013

机译：连续时间马尔可夫决策过程的马尔可夫策略的充分性以及跳跃马尔可夫过程的Kolmogorov正方程的解
5. Finite memory policies for partially observable Markov decision processes. [D] . Lusena, Christopher David. 2001

机译：用于部分可观察的马尔可夫决策过程的有限内存策略。
6. Evolving Robust Policy Coverage Sets in Multi-Objective Markov Decision Processes Through Intrinsically Motivated Self-Play [O] . Sherif Abdelfattah, Kathryn Kasmarik, Jiankun Hu 2018

机译：通过内在动机的自我博弈在多目标马尔可夫决策过程中发展稳健的政策覆盖范围
7. A New Class of Policies in Vector-Valued Markov Decision Processes [O] . Wakuta Kazuyoshi 1996

机译：向量值马尔可夫决策过程中的一类新策略
8. Using Markov Decision Processes with Heterogeneous Queueing Systems to Examine Military MEDEVAC Dispatching Policies. [R] . Jenkins, P. R. 2017

机译：利用具有异构排队系统的马尔可夫决策过程来检验军事mEDEVaC调度策略。

NEW CLASS OF POLICIES IN VECTOR-VALUED MARKOV DECISION PROCESSES

摘要

著录项

相似文献

相关主题

期刊订阅