Apprentissage par renforcement dans le cadre des processus décisionnels de Markov factorisés observables dans le désordre: Étude expérimentale du Q-Learning parallèle appliqué aux problèmes du labyrinthe et du New York Driving

Guillaume J. Laurent; Emmanuel Piat

首页> 外文期刊>Revue d'Intelligence Artificielle >Apprentissage par renforcement dans le cadre des processus décisionnels de Markov factorisés observables dans le désordre: Étude expérimentale du Q-Learning parallèle appliqué aux problèmes du labyrinthe et du New York Driving

【24h】

Apprentissage par renforcement dans le cadre des processus décisionnels de Markov factorisés observables dans le désordre: Étude expérimentale du Q-Learning parallèle appliqué aux problèmes du labyrinthe et du New York Driving

机译：在无序观察的因式分解马尔可夫决策中进行强化学习：并行Q学习在迷宫和纽约驾驶问题中的实验研究

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

Cet article présente les résultats expérimentaux obtenus avec une architecture originale permettant un apprentissage générique dans le cadre de processus décisionnels de Markov factorisés observables dans le désordre (PDMFOD). L'article décrit tout d'abord le cadre formel des PDMFOD puis le fonctionnement de l'algorithme, notamment le principe de paral-lélisation et l'attribution dynamique des récompenses. L'architecture est ensuite appliquée à deux problèmes de navigation, l'un dans un labyrinthe et l'autre dans un trafic routier (New York Driving). Les tests montrent que l'architecture permet effectivement d'apprendre une politique de décisions performante et générique malgré le nombre élevé de dimensions des espaces d'états des deux systèmes.%This paper presents experimental results obtained with an original architecture that can do generic learning for randomly observable factored Markov decision process (ROFMDP). First, the paper describes the theoretical framework of ROFMDP and the working of this algorithm, in particular the parallelization principle and the dynamic reward allocation process. Then, the architecture is applied to two navigation problems (gridworld and New York Driving). The tests show that the architecture allows to learn a good and generic policy in spite of the large dimensions of the state spaces of both systems.

机译：本文介绍了使用原始体系结构获得的实验结果，该体系结构允许在可观察到混乱的因果化马尔可夫决策过程（PDMFOD）框架内进行通用学习。本文首先介绍了PDMFOD的正式框架，然后介绍了算法的功能，尤其是并行化原理和奖励的动态归因。然后将该架构应用于两个导航问题，一个在迷宫中，另一个在道路交通中（纽约州驾驶）。测试表明，尽管两个系统的状态空间的维数很多，该体系结构仍允许学习强大而通用的决策策略。％本文介绍了可以进行常规学习的原始体系结构获得的实验结果用于随机可观察的因式马尔可夫决策过程（ROFMDP）。首先，本文描述了ROFMDP的理论框架和该算法的工作原理，特别是并行化原理和动态奖励分配过程。然后，将该架构应用于两个导航问题（gridworld和New York Driving）。测试表明，尽管两个系统的状态空间都很大，但该体系结构仍允许学习良好的通用策略。

著录项

来源
《Revue d'Intelligence Artificielle》 |2006年第3期|p.275-309|共35页
作者
Guillaume J. Laurent; Emmanuel Piat;
展开▼
作者单位

Laboratoire d'Automatique de Besanç

on -UMR CNRS 6596 24 rue Alain Savary, F-25000 Besanç

on;

展开▼
收录信息
原文格式 PDF
正文语种 fre
中图分类计算技术、计算机技术;
关键词
apprentissage par renforcement; Q-Learning; W-Learning; DBN-MDP; PDM facto-risé; PDMFOD;

机译：强化学习;Q-Learning;W-Learning;DBN-MDP;分解PDM;PDMFOD;
入库时间 2022-08-18 03:25:14

相似文献

外文文献
专利

1. INTRODUCTION DE «L'APPROCHE PAR PROBLÈMES» DANS LE CURRICULUM DES ÉTUDES MÉDICALES : FAUT-IL ABSOLUMENT COMMENCER PAR LE DÉBUT DU CURSUS ? [J] . J. Jouquan, J.-M. Boles, R. Hivon Medecine & Hygiene . 1996,第2143期

机译：在医学研究课程中引入“问题方法”：我们是否必须从开始以诅咒开始？
2. LE PROBLÈME DES HYDRATES DANS LE CONTEXTE DE LA PRODUCTION ET DU TRANSPORT POLYPHASIQUES DES PÉTROLES BRUTS ET DES GAZ NATURELS: LES SOLUTIONS POSSIBLES AUX DIFFICULTÉS D'EXPLOITATION GÉNÉRÉES PAR LES HYDRATES [J] . E. BEHAR, A.S. DELION, J.-P. DURAND, Revue de L'Institut Francais du Petrole . 1995,第5期

机译：复合生产和原油和天然气体运输中的水合物问题：水合物产生操作困难的可能解决方案
3. APPORTS DES MESURES DE RÉSISTIVITÉ ÉLECTRIQUE DU SOL DANS LES ÉTUDES SUR LE FONCTIONNEMENT HYDRIQUE DU SYSTÈME SOL/VIGNE [J] . Etienne GOULET, Gérard BARBEAU Journal International des Sciences de la Vigne et du Vin . 2006,第2期

机译：土/葡萄系统水力运行研究中的电导率电阻率测量
4. Role du soutien social dans le processus de resilience des parents ayant un enfant atteint du Syndrome Gilles De La Tourette (SGT)? [C] . Gousse V., Czernecki V., Stilgenbauer J.-L, World Congress on Resilience. . 2014

机译：社会支持在父母的恢复过程中的作用，让孩子从Toutete（SGT）综合征的吉尔唤醒？
5. étude du Transfert de Chaleur dans les Remblais en Pate Cimentés Curant sous les Conditions aux Frontières des Chantiers Miniers dans Le Pergélisol [D] . Beya, Fabrice Kazambua. 2016

机译：粘贴中传热的研究在多年冻土的矿业项目边境条件下嵌入CIMMEDES
6. Intégrer la prise en compte des impacts sur la santé dans les processus d’approbation des plans d’aménagement du territoire: l’élaboration d’un cadre d’étude de base sur la santé [O] . Brent W. Moloughney, Gayle E. Bursey, Jana Neumann, 2015

机译：将对健康影响的考虑纳入土地使用计划的批准过程：制定基本的健康研究框架
7. Apprentissage par renforcement dans le cadre des processus décisionnels de Markov factorisés observables dans le désordre. Etude expérimentale du Q-Learning parallèle appliqué aux problèmes du labyrinthe et du New York Driving. [O] . Laurent Guillaume, Piat Emmanuel 2006

机译：在可观察到的无序马尔可夫决策过程中进行强化学习。并行Q学习的实验研究适用于迷宫和纽约驾驶问题。
8. ÉTUDE EXPÉRIMENTALE DU TRANSFERT DE CHALEUR DANS DES FAISCEAUX TUBULAIRES EN ÉCOULEMENT PARALLÈLE POUR UNE DENSITÉ DE FLUX THERMIQUE CONSTANTE DANS LE DOMAINE DES NOMBRES DE PRANDTL MOYENS [R] . Manfred RIEGER 1969

机译：对于密度热常数FLOW IN向数普朗特的应用领域管内梁传热的平行流动的实验研究

Apprentissage par renforcement dans le cadre des processus décisionnels de Markov factorisés observables dans le désordre: Étude expérimentale du Q-Learning parallèle appliqué aux problèmes du labyrinthe et du New York Driving

摘要

著录项

相似文献

相关主题

期刊订阅