机译:预期总奖励标准下的离散时间马尔可夫决策过程的凸编程方法
Univ Bordeaux Inst Math Bordeaux Inst Polytech Bordeaux INRIA Bordeaux Sud Ouest Team CQFD Bordeaux France;
Univ Bordeaux Inst Math Bordeaux Inst Polytech Bordeaux INRIA Bordeaux Sud Ouest Team CQFD Bordeaux France;
Markov decision process; expected total reward criterion; occupation measure; constraints; convex program;
机译:预期总奖励标准下的离散时间马尔可夫决策过程的凸编程方法
机译:使用总预期折现报酬函数优化求解马尔可夫决策过程:重新考虑线性规划
机译:受限制的马尔可夫决策过程,预计总奖励标准
机译:基于带有预期总奖励标准的马尔可夫决策过程的并网光伏系统的效益分析
机译:离散时间部分观察到的马尔可夫决策过程:遍历,自适应和安全控制。
机译:为基于Markov的道路养护决策制定加权奖励标准
机译:在预期总奖励标准下的离散时间马尔可夫决策过程的凸编程方法
机译:具有平均成本标准的离散时间控制马尔可夫过程:一项调查。