Markov processes; estimation theory; infinite horizon; iterative methods; matrix algebra; multilayer perceptrons; approximate robust policy iteration; controller design; deterministic policy space; discounted infinite-horizon Markov decision processes; estimation;
机译:不确定关联Markov决策过程的多层感知器神经网络的近似鲁棒策略迭代
机译:不确定转移矩阵的无穷折扣马尔可夫决策过程的鲁棒最优性
机译:具有不确定转移矩阵的Markov决策过程的鲁棒控制
机译:不确定平稳参数化转移矩阵的无穷折扣马尔可夫决策过程的近似鲁棒策略迭代
机译:利用折扣道路用户和机构成本的策略迭代算法的路面维护马尔瓦维亚优化模型
机译:通过内在动机的自我博弈在多目标马尔可夫决策过程中发展稳健的政策覆盖范围
机译:论无限期地震折扣的非平稳政策 马尔可夫决策过程