...
机译:无限地平线有界Markov决策过程的鲁棒拓扑策略迭代
Univ Sao Paulo, Inst Math & Stat, R Matao 1010, Sao Paulo, Brazil;
Univ Sao Paulo, Inst Math & Stat, R Matao 1010, Sao Paulo, Brazil;
Univ Sao Paulo, Sch Arts Sci & Humanities, Av Arlindo Bettio 1000, Sao Paulo, Brazil;
Probabilistic planning; Bounded-parameter Markov Decision Processes; Asynchronous policy iteration;
机译:不确定关联Markov决策过程的多层感知器神经网络的近似鲁棒策略迭代
机译:基于策略的分支和绑定无限的Horizo n多模型马尔可夫决策过程
机译:近似定点迭代及其在无限马尔可夫决策过程中的应用
机译:不确定平稳参数化转移矩阵的无穷折扣马尔可夫决策过程的近似鲁棒策略迭代
机译:马尔可夫决策过程的迭代方法的加速。
机译:通过内在动机的自我博弈在多目标马尔可夫决策过程中发展稳健的政策覆盖范围
机译:论无限期地震折扣的非平稳政策 马尔可夫决策过程
机译:具有贴现性的无限规划期间的部分可观察马尔可夫决策过程。