首页> 外文期刊>Revue d'Intelligence Artificielle >Apprentissage par renforcement dans le cadre des processus décisionnels de Markov factorisés observables dans le désordre: Étude expérimentale du Q-Learning parallèle appliqué aux problèmes du labyrinthe et du New York Driving
【24h】

Apprentissage par renforcement dans le cadre des processus décisionnels de Markov factorisés observables dans le désordre: Étude expérimentale du Q-Learning parallèle appliqué aux problèmes du labyrinthe et du New York Driving

机译:在无序观察的因式分解马尔可夫决策中进行强化学习:并行Q学习在迷宫和纽约驾驶问题中的实验研究

获取原文
获取原文并翻译 | 示例
       

摘要

Cet article présente les résultats expérimentaux obtenus avec une architecture originale permettant un apprentissage générique dans le cadre de processus décisionnels de Markov factorisés observables dans le désordre (PDMFOD). L'article décrit tout d'abord le cadre formel des PDMFOD puis le fonctionnement de l'algorithme, notamment le principe de paral-lélisation et l'attribution dynamique des récompenses. L'architecture est ensuite appliquée à deux problèmes de navigation, l'un dans un labyrinthe et l'autre dans un trafic routier (New York Driving). Les tests montrent que l'architecture permet effectivement d'apprendre une politique de décisions performante et générique malgré le nombre élevé de dimensions des espaces d'états des deux systèmes.%This paper presents experimental results obtained with an original architecture that can do generic learning for randomly observable factored Markov decision process (ROFMDP). First, the paper describes the theoretical framework of ROFMDP and the working of this algorithm, in particular the parallelization principle and the dynamic reward allocation process. Then, the architecture is applied to two navigation problems (gridworld and New York Driving). The tests show that the architecture allows to learn a good and generic policy in spite of the large dimensions of the state spaces of both systems.
机译:本文介绍了使用原始体系结构获得的实验结果,该体系结构允许在可观察到混乱的因果化马尔可夫决策过程(PDMFOD)框架内进行通用学习。本文首先介绍了PDMFOD的正式框架,然后介绍了算法的功能,尤其是并行化原理和奖励的动态归因。然后将该架构应用于两个导航问题,一个在迷宫中,另一个在道路交通中(纽约州驾驶)。测试表明,尽管两个系统的状态空间的维数很多,该体系结构仍允许学习强大而通用的决策策略。%本文介绍了可以进行常规学习的原始体系结构获得的实验结果用于随机可观察的因式马尔可夫决策过程(ROFMDP)。首先,本文描述了ROFMDP的理论框架和该算法的工作原理,特别是并行化原理和动态奖励分配过程。然后,将该架构应用于两个导航问题(gridworld和New York Driving)。测试表明,尽管两个系统的状态空间都很大,但该体系结构仍允许学习良好的通用策略。

著录项

相似文献

  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号