Les dé s pour voir des robots opérant dans l environnement de tous les jours des humains et sur unelongue durée soulignent l importance de leur adaptation aux changements qui peuvent être imprévisiblesau moment de leur construction. Ils doivent être capable de savoir quelles parties échantillonner, et quelstypes de compétences il a intérêt à acquérir. Une manière de collecter des données est de décider par soi-même où explorer. Une autre manière est de se référer à un mentor. Nous appelons ces deux manièresde collecter des données des modes d échantillonnage. Le premier mode d échantillonnage correspondà des algorithmes développés dans la littérature pour automatiquement pousser l agent vers des partiesintéressantes de l environnement ou vers des types de compétences utiles. De tels algorithmes sont appelésdes algorithmes de curiosité arti cielle ou motivation intrinsèque. Le deuxième mode correspond au guidagesocial ou l imitation, où un partenaire humain indique où explorer et où ne pas explorer.Nous avons construit une architecture algorithmique intrinsèquement motivée pour apprendre commentproduire par ses actions des e ets et conséquences variées. Il apprend de manière active et en ligne encollectant des données qu il choisit en utilisant plusieurs modes d échantillonnage. Au niveau du metaapprentissage, il apprend de manière active quelle stratégie d échantillonnage est plus e cace pour améliorersa compétence et généraliser à partir de son expérience à un grand éventail d e ets. Par apprentissage parinteraction, il acquiert de multiples compétences de manière structurée, en découvrant par lui-même lesséquences développementale.
展开▼