机译:约束马尔可夫决策过程的非随机策略
Radar Division Naval Research Laboratory Code 5341 Washington DC 20375 USA;
Department of Applied Mathematics and Statistics State University of New York Stony Brook NY 11794-3600 USA;
Constrained Markov; Decision processes; Dynamic programming; Non-randomized policies;
机译:随机搜索约束多策略改进的马尔可夫决策过程
机译:历史相关策略中一般连续时间马尔可夫决策过程的线性规划和约束平均最优性
机译:约束平均成本马尔可夫决策过程的最优策略
机译:受约束的马尔可夫决策过程的非随机控制
机译:约束马尔可夫决策过程的结构结果
机译:通过内在动机的自我博弈在多目标马尔可夫决策过程中发展稳健的政策覆盖范围
机译:约束连续时间的固定策略的充分性 具有总成本标准的马尔可夫决策过程