机译:大型马尔可夫决策过程中近最优规划的稀疏采样算法
reinforcement learning; Markov decision processes; planning;
机译:无限地平线马尔可夫决策过程的基于虚拟演习的采样演算法
机译:求解马尔可夫决策过程的自适应采样算法
机译:有限记忆近最优学习马尔可夫决策过程,长期奖励
机译:规划Markov决策过程,具有稀疏的随机性
机译:用于集中式和分散式部分可观察的马尔可夫决策过程的算法中的可伸缩性不断增强:在不确定的环境中进行有效的决策和协调。
机译:不确定性下的决策:基于部分可观察的马尔可夫决策过程的神经模型
机译:基于样本虚构游戏的无限马尔可夫决策过程学习算法