首页> 外文OA文献 >A proposal of a behavior-based control architecture with reinforcement learning for an autonomous underwater robot
【2h】

A proposal of a behavior-based control architecture with reinforcement learning for an autonomous underwater robot

机译:一种基于行为的控制架构的提案,该架构具有自主水下机器人的强化学习功能

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Aquesta tesi proposa l'ús d'un seguit de tècniques pel control a alt nivell d'un robot autònom i també per l'aprenentatge automàtic de comportaments. L'objectiu principal de la tesis fou el de dotar d'intel·ligència als robots autònoms que han d'acomplir unes missions determinades en entorns desconeguts i no estructurats. Una de les premisses tingudes en compte en tots els passos d'aquesta tesis va ser la selecció d'aquelles tècniques que poguessin ésser aplicades en temps real, i demostrar-ne el seu funcionament amb experiments reals. El camp d'aplicació de tots els experiments es la robòtica submarina. En una primera part, la tesis es centra en el disseny d'una arquitectura de control que ha de permetre l'assoliment d'una missió prèviament definida. En particular, la tesis proposa l'ús de les arquitectures de control basades en comportaments per a l'assoliment de cada una de les tasques que composen la totalitat de la missió. Una arquitectura d'aquest tipus està formada per un conjunt independent de comportaments, els quals representen diferents intencions del robot (ex.: "anar a una posició", "evitar obstacles",...). Es presenta una recerca bibliogràfica sobre aquest camp i alhora es mostren els resultats d'aplicar quatre de les arquitectures basades en comportaments més representatives a una tasca concreta. De l'anàlisi dels resultats se'n deriva que un dels factors que més influeixen en el rendiment d'aquestes arquitectures, és la metodologia emprada per coordinar les respostes dels comportaments. Per una banda, la coordinació competitiva és aquella en que només un dels comportaments controla el robot. Per altra banda, en la coordinació cooperativa el control del robot és realitza a partir d'una fusió de totes les respostes dels comportaments actius. La tesis, proposa un esquema híbrid d'arquitectura capaç de beneficiar-se dels principals avantatges d'ambdues metodologies. En una segona part, la tesis proposa la utilització de l'aprenentatge per reforç per aprendre l'estructura interna dels comportaments. Aquest tipus d'aprenentatge és adequat per entorns desconeguts i el procés d'aprenentatge es realitza al mateix temps que el robot està explorant l'entorn. La tesis presenta també un estat de l'art d'aquest camp, en el que es detallen els principals problemes que apareixen en utilitzar els algoritmes d'aprenentatge per reforç en aplicacions reals, com la robòtica. El problema de la generalització és un dels que més influeix i consisteix en permetre l'ús de variables continues sense augmentar substancialment el temps de convergència. Després de descriure breument les principals metodologies per generalitzar, la tesis proposa l'ús d'una xarxa neural combinada amb l'algoritme d'aprenentatge per reforç Q_learning. Aquesta combinació proporciona una gran capacitat de generalització i una molt bona disposició per aprendre en tasques de robòtica amb exigències de temps real. No obstant, les xarxes neurals són aproximadors de funcions no-locals, el que significa que en treballar amb un conjunt de dades no homogeni es produeix una interferència: aprendre en un subconjunt de l'espai significa desaprendre en la resta de l'espai. El problema de la interferència afecta de manera directa en robòtica, ja que l'exploració de l'espai es realitza sempre localment. L'algoritme proposat en la tesi té en compte aquest problema i manté una base de dades representativa de totes les zones explorades. Així doncs, totes les mostres de la base de dades s'utilitzen per actualitzar la xarxa neural, i per tant, l'aprenentatge és homogeni. Finalment, la tesi presenta els resultats obtinguts amb la arquitectura de control basada en comportaments i l'algoritme d'aprenentatge per reforç. Els experiments es realitzen amb el robot URIS, desenvolupat a la Universitat de Girona, i el comportament après és el seguiment d'un objecte mitjançant visió per computador. La tesi detalla tots els dispositius desenvolupats pels experiments així com les característiques del propi robot submarí. Els resultats obtinguts demostren la idoneïtat de les propostes en permetre l'aprenentatge del comportament en temps real. En un segon apartat de resultats es demostra la capacitat de generalització de l'algoritme d'aprenentatge mitjançant el "benchmark" del "cotxe i la muntanya". Els resultats obtinguts en aquest problema milloren els resultats d'altres metodologies, demostrant la millor capacitat de generalització de les xarxes neurals.
机译:本文提出将一系列技术用于自主机器人的高级控制以及行为的自动学习。本文的主要目的是为必须在未知和非结构化环境中执行某些任务的自主机器人提供智能。在本文所有步骤中考虑的前提之一是选择可以实时应用的技术,并通过实际实验演示其操作。所有实验的应用领域都是水下机器人。在第一部分中,论文着重于控制架构的设计,该架构必须允许实现先前定义的任务。特别是,本文提出使用基于行为的控制体系结构来完成构成整个任务的每个任务。这样的体系结构由一组独立的行为组成,这些行为代表机器人的不同意图(例如:“去某个位置”,“避开障碍物”等)。介绍了该领域的书目研究,同时显示了将四种最具代表性的基于行为的体系结构应用于特定任务的结果。结果分析表明,影响这些体系结构性能的因素之一是用于协调行为响应的方法。一方面,竞争协调是一种行为,其中只有一种行为控制着机器人。另一方面,在协作式协调中,机器人的控制是通过对活动行为的所有响应进行融合来执行的。本文提出了一种能够从两种方法的主要优点中受益的混合架构方案。在第二部分中,论文提出了使用强化学习来学习行为的内部结构。这种类型的学习适用于陌生的环境,并且学习过程是在机器人探索环境的同时进行的。本文还介绍了该领域的最新技术,详细介绍了在诸如机器人技术的实际应用中使用强化学习算法时出现的主要问题。泛化问题是最有影响力的问题之一,它在于允许使用连续变量而不显着增加收敛时间。在简要描述了概括的主要方法之后,本文提出了结合Q_learning强化学习算法的神经网络的使用。这种结合提供了强大的归纳能力,以及很好的学习具有实时需求的机器人任务的能力。但是,神经网络是非局部函数的近似值,这意味着使用非均匀数据集会产生干扰:在空间的一个子集中学习意味着在空间的其余部分不学习。干扰问题直接影响机器人技术,因为太空探索始终在本地进行。本文提出的算法考虑了这一问题,并维护了一个代表所有探索领域的数据库。因此,数据库中的所有样本都用于更新神经网络,因此学习是同质的。最后,本文介绍了基于行为的控制体系结构和强化学习算法所获得的结果。实验是由赫罗纳大学开发的URIS机器人进行的,所获行为是通过计算机视觉跟踪物体。本文详细介绍了实验开发的所有设备以及水下机器人本身的特性。获得的结果通过允许实时学习行为证明了该建议的适用性。在结果的第二部分中,展示了通过演示“汽车和山区”的“基准”来概括学习算法的能力。在此问题中获得的结果改进了其他方法的结果,证明了神经网络的最佳泛化能力。

著录项

  • 作者

    Carreras Pérez Marc;

  • 作者单位
  • 年度 2003
  • 总页数
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号