...
首页> 外文期刊>Automatic Control, IEEE Transactions on >Approximating Ergodic Average Reward Continuous-Time Controlled Markov Chains
【24h】

Approximating Ergodic Average Reward Continuous-Time Controlled Markov Chains

机译:近似遍历平均奖励连续时间控制的马尔可夫链

获取原文
           

摘要

We study the approximation of an ergodic average reward continuous-time denumerable state Markov decision process (MDP) by means of a sequence of MDPs. Our results include the convergence of the corresponding optimal policies and the optimal gains. For a controlled upwardly skip-free process, we show some computational results to illustrate the convergence theorems.
机译:我们通过一系列MDP来研究遍历平均奖励连续时间可数状态马尔可夫决策过程(MDP)的近似值。我们的结果包括相应最优策略和最优收益的收敛。对于受控向上跳跃过程,我们显示了一些计算结果来说明收敛定理。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号