...
机译:具有平均奖励标准的向量值马尔可夫决策过程:多链案例
机译:具有一般多链结构的平均奖励半马尔可夫决策过程
机译:在多链平均奖励马尔可夫决策过程中实现目标状态作用频率
机译:具有平均奖励标准的可逆马尔可夫决策过程
机译:具有平均奖励标准的有界参数马尔可夫决策过程
机译:基于后悔的马尔可夫决策过程的奖励启发。
机译:为基于Markov的道路养护决策制定加权奖励标准
机译:具有平均奖励准则的有界参数马尔可夫决策过程
机译:具有平均成本准则的部分可观察马尔可夫决策过程。