decision making; decision theory; learning (artificial intelligence); Markov processes; optimisation;
机译:折扣条件下半马尔可夫环境中的非平稳连续时间马尔可夫决策过程
机译:马尔可夫决策过程在线规划中的简单后悔优化
机译:马尔可夫决策过程在线规划中的简单后悔优化
机译:在线学习非视野环境中的马尔可夫决策过程:动态遗憾分析
机译:基于后悔的马尔可夫决策过程的奖励启发。
机译:用于非营养环境的自适应异构在线学习集分类
机译:折扣准则的半马尔可夫环境下的非平稳连续时间马尔可夫决策过程