首页> 外文OA文献 >A Curious Robot Learner for Interactive Goal-Babbling (Strategically Choosing What, How, When and from Whom to Learn)
【2h】

A Curious Robot Learner for Interactive Goal-Babbling (Strategically Choosing What, How, When and from Whom to Learn)

机译:互动目标 - 喋喋不休的好奇学习机器人(战略性地选择什么,如何以及何时学习)

摘要

Les dé s pour voir des robots opérant dans l environnement de tous les jours des humains et sur unelongue durée soulignent l importance de leur adaptation aux changements qui peuvent être imprévisiblesau moment de leur construction. Ils doivent être capable de savoir quelles parties échantillonner, et quelstypes de compétences il a intérêt à acquérir. Une manière de collecter des données est de décider par soi-même où explorer. Une autre manière est de se référer à un mentor. Nous appelons ces deux manièresde collecter des données des modes d échantillonnage. Le premier mode d échantillonnage correspondà des algorithmes développés dans la littérature pour automatiquement pousser l agent vers des partiesintéressantes de l environnement ou vers des types de compétences utiles. De tels algorithmes sont appelésdes algorithmes de curiosité arti cielle ou motivation intrinsèque. Le deuxième mode correspond au guidagesocial ou l imitation, où un partenaire humain indique où explorer et où ne pas explorer.Nous avons construit une architecture algorithmique intrinsèquement motivée pour apprendre commentproduire par ses actions des e ets et conséquences variées. Il apprend de manière active et en ligne encollectant des données qu il choisit en utilisant plusieurs modes d échantillonnage. Au niveau du metaapprentissage, il apprend de manière active quelle stratégie d échantillonnage est plus e cace pour améliorersa compétence et généraliser à partir de son expérience à un grand éventail d e ets. Par apprentissage parinteraction, il acquiert de multiples compétences de manière structurée, en découvrant par lui-même lesséquences développementale.
机译:看到机器人在人类日常环境中长期运行的挑战凸显了适应变化的重要性,这些变化在构造时可能无法预测。他们必须能够知道要采样哪些部分,以及要获取哪种技能。收集数据的一种方法是自己决定在哪里进行探索。另一种方式是指导师。我们称这两种从采样模式收集数据的方式。第一采样模式对应于文献中开发的算法,用于自动将代理推向环境中有趣的部分或实用技能类型。这种算法称为人工好奇心或内在动机算法。第二种模式对应于社会指导或模仿,其中人类伴侣指示要探索的地方和不去探索的地方,我们建立了一个内在动机的算法体系结构,以学习如何通过其行为产生各种效果和结果。他积极学习,并使用多种采样模式在线选择数据。在元学习级别上,他积极地学习哪种抽样策略更有效地提高了自己的能力,并从他的经验中推广到广泛的效果。通过互动学习,他通过发现自己的发展顺序,以结构化的方式获得了多种技能。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号