...
机译:首次通过标准的半马尔可夫决策过程的均方差最优
Dongguan Univ Technol, Sch Comp Sci & Network Secur, Dongguan 523000, Peoples R China;
Sun Yat Sen Univ, Sch Math & Computat Sci, Guangzhou 510275, Guangdong, Peoples R China;
semi-Markov decision processes; first passage time; unbounded reward rate; minimal variance; mean-variance optimal policy;
机译:初次通过条件下半马尔可夫决策过程的均值方差最优
机译:半马尔可夫决策过程中首过模型的最佳风险概率
机译:有限地平线半马尔可夫决策过程的均值问题
机译:具有折扣和平均奖励标准的半马尔可夫决策过程的统一方法
机译:半马尔可夫决策过程的固定探索新强化学习算法
机译:学习最大化奖励率:基于半马尔可夫决策过程的模型
机译:贴现连续时间马尔可夫决策过程的第一遍$ g $-均值最优性
机译:无界成本半马尔可夫决策过程理论及其在排队系统最优控制中的应用。