机译:马尔可夫决策过程的加速修改策略迭代算法
Accelerated convergence; Markov decision processes; Modified policy iteration; Policy iteration;
机译:马尔可夫决策过程的加速修改策略迭代算法
机译:基于电位的Markov决策过程在线策略迭代算法
机译:循环状态马尔可夫决策过程的策略迭代类型算法
机译:用于Markov决策过程的策略迭代算法在一个方向上无跳跃
机译:用于集中式和分散式部分可观察的马尔可夫决策过程的算法中的可伸缩性不断增强:在不确定的环境中进行有效的决策和协调。
机译:通过内在动机的自我博弈在多目标马尔可夫决策过程中发展稳健的政策覆盖范围
机译:广义半马尔可夫决策过程的近似策略迭代:改进算法