机译:价值向量马尔可夫决策过程中的新一类策略
机译:价值向量马尔可夫决策过程中的新一类策略
机译:关于向量值马尔可夫决策过程中值空间结构的注释
机译:使用高斯过程的连续时间马尔可夫决策过程中的策略学习
机译:连续时间马尔可夫决策过程的马尔可夫策略的充分性以及跳跃马尔可夫过程的Kolmogorov正方程的解
机译:用于部分可观察的马尔可夫决策过程的有限内存策略。
机译:通过内在动机的自我博弈在多目标马尔可夫决策过程中发展稳健的政策覆盖范围
机译:向量值马尔可夫决策过程中的一类新策略
机译:利用具有异构排队系统的马尔可夫决策过程来检验军事mEDEVaC调度策略。