Optimization; Decision making; Approximation(Mathematics); Problem solving; Markov processes; Stochastic control; Computerized simulation; Monte carlo method; Policies;
机译:马尔可夫决策过程的近似后退地平线方法:平均奖励案例
机译:具有BOREL空间和绑定成本的平均成本MARKOV决策过程的近似值迭代的扰动方法
机译:具有Borel空间和界限成本的平均成本马尔可夫决策过程近似值迭代的扰动方法
机译:无限地平线平均奖励马尔可夫决策过程的无模型加强学习
机译:马尔可夫决策过程中的多阶段决策和风险:建立有效的近似动态编程体系结构。
机译:隐参数马尔可夫决策过程:发现潜在任务参数化的半参数回归方法
机译:马尔可夫决策过程的近似后退地平线方法:平均奖励案例