Dept. of Oper. Res. Financial Eng., Princeton Univ., Princeton, NJ;
Markov processes; approximation theory; convergence of numerical methods; decision theory; iterative methods; least squares approximations; action space; approximate policy value function; continuous state space; convergent recursive least square approximate policy iteration algorithm; mean absolute deviation; multidimensional Markov decision process; optimal value function;
机译:具有受限成本和Borel空间的折扣马尔可夫决策模型的估计与近似策略迭代算法。
机译:波兰空间中连续时间平均奖励马尔可夫决策过程的策略迭代
机译:关于具有紧凑动作空间的Markov决策过程中策略迭代收敛性的注记
机译:具有连续状态和动作空间的多维马尔可夫决策过程的收敛递归最小二乘性近似策略迭代算法
机译:连续,多维应用程序和收敛性分析的近似策略迭代算法。
机译:使用基于模型的建议对离散状态空间连续时间马尔可夫过程进行快速参数推断
机译:具有连续状态和动作空间的多维马尔可夫决策过程的收敛递归最小二乘近似策略迭代算法