机译:使用高斯过程的连续时间马尔可夫决策过程中的策略学习
机译:约束条件下平均连续时间马尔可夫决策过程混合策略的最优性
机译:可变折扣因子和历史相关策略的连续时间马尔可夫决策过程的第一遍最优性
机译:连续时间马尔可夫决策过程的马尔可夫策略的充分性以及跳跃马尔可夫过程的Kolmogorov正方程的解
机译:用于部分可观察的马尔可夫决策过程的有限内存策略。
机译:通过内在动机的自我博弈在多目标马尔可夫决策过程中发展稳健的政策覆盖范围
机译:通过双随机梯度上升进行连续时间马尔可夫决策过程中时间可及性的策略学习