learning (artificial intelligence); Markov processes; pattern classification; search problems;
机译:使用高斯过程的连续时间马尔可夫决策过程中的策略学习
机译:马尔可夫决策过程中的主动模型估计
机译:解决Markov决策过程的主动集策略,具有良好的风险衡量
机译:通过马尔可夫决策过程距离惩罚的主动学习
机译:参数不确定马尔可夫决策过程的信息理论学习方法
机译:学习最大化奖励率:基于半马尔可夫决策过程的模型
机译:系统验证马尔可夫决策过程的主动学习