SMDPs; performance difference; policy iteration;
机译:具有折价和平均标准的统一的马尔可夫决策问题和性能敏感性分析方法:多链案例
机译:具有折扣成本准则的半马尔可夫决策过程的性能优化
机译:半马尔可夫决策过程,限制比率奖励
机译:具有折扣和平均奖励标准的半马尔可夫决策过程的统一方法
机译:半马尔可夫决策过程的固定探索新强化学习算法
机译:学习最大化奖励率:基于半马尔可夫决策过程的模型
机译:马尔可夫决策过程:折现的预期奖励还是平均预期奖励?
机译:具有无限奖励的可数州折现马尔可夫决策过程