机译:具有约束和可变折现率的第一代马尔可夫决策过程
Sun Yat Sen Univ, Sch Math & Computat Sci, Guangzhou 510275, Guangdong, Peoples R China|Zhaoqing Univ, Sch Math & Stat, Zhaoqing 526061, Peoples R China;
Sun Yat Sen Univ, Sch Math & Computat Sci, Guangzhou 510275, Guangdong, Peoples R China;
Sun Yat Sen Univ, Sch Math & Computat Sci, Guangzhou 510275, Guangdong, Peoples R China;
Discrete-time Markov decision process (DTMDP); constrained optimality; varying discount factor; unbounded cost;
机译:可变折扣因子的离散时间马尔可夫决策过程的第一遍模型的有限逼近
机译:具有多种折扣因素的马尔可夫决策过程的第一通道最优性和方差最小化
机译:可变折扣因子和历史相关策略的连续时间马尔可夫决策过程的第一遍最优性
机译:可变折扣因子的离散时间马尔可夫决策过程在第一阶段模型有限逼近中的应用
机译:因子马尔可夫决策过程的线性近似。
机译:不确定性下的决策:基于部分可观察的马尔可夫决策过程的神经模型
机译:贴现连续时间马尔可夫决策过程的第一遍$ g $-均值最优性