机译:鲁棒非平稳马尔可夫决策过程的策略迭代
机译:在半岛决策过程中使用其模型的海洋发电厂系统运行过程的决策控制问题
机译:不确定关联Markov决策过程的多层感知器神经网络的近似鲁棒策略迭代
机译:使用非平稳马尔可夫决策过程的不确定环境政策下的生命周期决策
机译:用于集中式和分散式部分可观察的马尔可夫决策过程的算法中的可伸缩性不断增强:在不确定的环境中进行有效的决策和协调。
机译:通过内在动机的自我博弈在多目标马尔可夫决策过程中发展稳健的政策覆盖范围
机译:非平稳马尔可夫链中的非平稳Markov决策过程和相关主题