首页> 外文OA文献 >Une Approche basée sur la Simulation pour l'Optimisation des Processus Décisionnels Semi-Markoviens Généralisés
【2h】

Une Approche basée sur la Simulation pour l'Optimisation des Processus Décisionnels Semi-Markoviens Généralisés

机译:基于仿真的广义半马尔可夫决策过程优化方法

摘要

Time is a crucial variable in planning and often requires special attention since it introduces a specific structure along with additional complexity, especially in the case of decision under uncertainty. In this paper, after reviewing and comparing MDP frameworks designed to deal with temporal problems, we focus on Generalized Semi-Markov Decision Processes (GSMDP) with observable time. We highlight the inherent structure and complexity of these problems and present the differences with classical reinforcement learning problems. Finally, we introduce a new simulation-based reinforcement learning method for solving GSMDP, bringing together results from simulation-based policy iteration, regression techniques and simulation theory. We illustrate our approach on a subway network control example.
机译:时间是规划中的关键变量,通常需要特别注意,因为它引入了特定的结构以及额外的复杂性,尤其是在不确定情况下进行决策的情况下。在本文中,在回顾和比较了旨在处理时间问题的MDP框架之后,我们将重点放在可观察时间的广义半马尔可夫决策过程(GSMDP)上。我们强调了这些问题的内在结构和复杂性,并提出了与经典强化学习问题的区别。最后,我们引入了一种新的基于仿真的强化学习方法来解决GSMDP,将基于仿真的策略迭代,回归技术和仿真理论的结果汇总在一起。我们以地铁网络控制示例为例进行说明。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号