STRONG UNIFORM VALUE IN GAMBLING HOUSES AND PARTIALLY OBSERVABLE MARKOV DECISION PROCESSES

Venel Xavier; Ziliotto Bruno

首页> 外文期刊>SIAM Journal on Control and Optimization >STRONG UNIFORM VALUE IN GAMBLING HOUSES AND PARTIALLY OBSERVABLE MARKOV DECISION PROCESSES

【24h】

STRONG UNIFORM VALUE IN GAMBLING HOUSES AND PARTIALLY OBSERVABLE MARKOV DECISION PROCESSES

机译：博彩屋和部分可观察到的马尔可夫决策过程中的统一价值很强

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

In several standard models of dynamic programming (gambling houses, Markov decision processes (MDPs), Partially observable MDPs (POMDPs), we prove the existence of a robust notion of value for the infinitely repeated problem, namely, the strong uniform value. This solves two open problems. First, this shows that for any epsilon > 0, the decision maker has a pure strategy sigma which is epsilon optimal in any n-stage problem, provided that n is big enough (this result was only known for behavior strategies, that is, strategies which use randomization). Second, for any epsilon > 0, the decision-maker can guarantee the limit of the n-stage value minus in the infinite problem, where the payoff is the expectation of the inferior limit of the time average payoff.

机译：在动态规划的几种标准模型（赌博场所，马尔可夫决策过程（MDP），部分可观察的MDP（POMDP））中，我们证明了存在无限重复问题的强健的价值观念，即强一致价值。两个未解决的问题。首先，这表明对于任何大于ε的epsil，决策者都有一个纯正的策略sigma，在n阶问题中，只要n足够大（对于行为策略，该结果才是已知的，其次，对于任何大于0的epsilon，决策者都可以保证无限大问题中n阶值的负负，其中回报是对时间次优的期望平均收益。

著录项

来源
《SIAM Journal on Control and Optimization》 |2016年第4期|共26页
作者
Venel Xavier; Ziliotto Bruno;
展开▼
作者单位

展开▼
收录信息
原文格式 PDF
正文语种 eng
中图分类运筹学;控制论、信息论（数学理论）;
关键词
dynamic programming; Markov decision processes; partial observation; uniform value; long-run average payoff;

机译：动态规划;马尔可夫决策过程;局部观测;均匀值;长期平均收益;

相似文献

外文文献
中文文献
专利

1. STRONG UNIFORM VALUE IN GAMBLING HOUSES AND PARTIALLY OBSERVABLE MARKOV DECISION PROCESSES [J] . Venel Xavier, Ziliotto Bruno SIAM Journal on Control and Optimization . 2016,第4期

机译：博彩屋和部分可观察到的马尔可夫决策过程中的统一价值很强
2. Monotonicity properties for two-action partially observable Markov decision processes on partially ordered spaces [J] . European Journal of Operational Research . 2020,第3期

机译：两个动作部分可观察到的Markov决策过程的单调性属性在部分有序空间上
3. Partially observable Markov decision processes for optimal operations of gas transmission networks [J] . Compare Michele, Baraldi Piero, Marelli Paolo, Reliability Engineering & System Safety . 2020,第Jula期

机译：用于燃气传输网络的最佳操作的部分可观察的马尔可夫决策过程
4. RE-STORM: Mapping the Decision-Making Problem and Non-functional Requirements Trade-Off to Partially Observable Markov Decision Processes [C] . Luis Hernan Garcia Paucar, Nelly Bencomo International Symposium on Software Engineering for Adaptive and Self-Managing Systems . 2018

机译：RE-STORM：将决策问题和非功能需求折衷映射到部分可观察的马尔可夫决策过程
5. Modern Methods of Hidden Markov Models and Partially Observable Markov Decision Processes in Biostatistics [D] . Xu, Zekun. 2020

机译：隐藏马尔可夫模型的现代方法和止痛性的部分可观察马尔可夫决策过程
6. Decision Making Under Uncertainty: A Neural Model Based on Partially Observable Markov Decision Processes [O] . Rajesh P. N. Rao 2010

机译：不确定性下的决策：基于部分可观察的马尔可夫决策过程的神经模型
7. Strong Uniform Value in Gambling Houses and Partially Observable Markov Decision Processes [O] . Venel, Xavier, Ziliotto, Bruno 2016

机译：赌博房屋和部分可观察到的马尔可夫决策过程具有很强的统一价值

STRONG UNIFORM VALUE IN GAMBLING HOUSES AND PARTIALLY OBSERVABLE MARKOV DECISION PROCESSES

摘要

著录项

相似文献

相关主题

期刊订阅