首页> 外文OA文献 >Gradient-based reinforcement learning techniques for underwater robotics behavior learning
【2h】

Gradient-based reinforcement learning techniques for underwater robotics behavior learning

机译:用于水下机器人行为学习的基于梯度的强化学习技术

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Darrerament, l'interès pel desenvolupament d'aplicacions amb robots submarins autònoms (AUV) ha crescut de forma considerable. Els AUVs són atractius gràcies al seu tamany i el fet que no necessiten un operador humà per pilotar-los. Tot i això, és impossible comparar, en termes d'eficiència i flexibilitat, l'habilitat d'un pilot humà amb les escasses capacitats operatives que ofereixen els AUVs actuals. L'utilització de AUVs per cobrir grans àrees implica resoldre problemes complexos, especialment si es desitja que el nostre robot reaccioni en temps real a canvis sobtats en les condicions de treball. Per aquestes raons, el desenvolupament de sistemes de control autònom amb l'objectiu de millorar aquestes capacitats ha esdevingut una prioritat. Aquesta tesi tracta sobre el problema de la presa de decisions utilizant AUVs. El treball presentat es centra en l'estudi, disseny i aplicació de comportaments per a AUVs utilitzant tècniques d'aprenentatge per reforç (RL). La contribució principal d'aquesta tesi consisteix en l'aplicació de diverses tècniques de RL per tal de millorar l'autonomia dels robots submarins, amb l'objectiu final de demostrar la viabilitat d'aquests algoritmes per aprendre tasques submarines autònomes en temps real. En RL, el robot intenta maximitzar un reforç escalar obtingut com a conseqüència de la seva interacció amb l'entorn. L'objectiu és trobar una política òptima que relaciona tots els estats possibles amb les accions a executar per a cada estat que maximitzen la suma de reforços totals. Així, aquesta tesi investiga principalment dues tipologies d'algoritmes basats en RL: mètodes basats en funcions de valor (VF) i mètodes basats en el gradient (PG). Els resultats experimentals finals mostren el robot submarí Ictineu en una tasca autònoma real de seguiment de cables submarins. Per portar-la a terme, s'ha dissenyat un algoritme anomenat mètode d'Actor i Crític (AC), fruit de la fusió de mètodes VF amb tècniques de PG.
机译:最近,人们对使用自主水下机器人(AUV)开发应用程序的兴趣大大增加。 AUV具有吸引力,因为它们的尺寸很大,而且不需要人工操作即可进行操作。然而,就效率和灵活性而言,不可能将人类飞行员的能力与当前AUV提供的有限的作战能力进行比较。使用AUV覆盖大面积区域涉及解决复杂的问题,特别是如果我们希望我们的机器人对工作条件的突然变化做出实时反应。由于这些原因,以改善这些能力为目标的自主控制系统的开发已成为当务之急。本文研究了使用AUV进行决策的问题。提出的工作重点在于使用强化学习(RL)技术对AUV的行为进行研究,设计和应用。本文的主要贡献是为了提高水下机器人的自主性,应用了各种RL技术,最终目的是证明这些算法在实时学习自主水下任务中的可行性。在RL中,机器人会尝试最大化由于其与环境的相互作用而获得的标量增强。目标是找到一种最佳策略,该策略将所有可能的状态与每个状态下要执行的动作相关联,以使总加固量的总和最大化。因此,本文主要研究基于RL的算法的两种类型:基于值的(VF)方法和基于梯度的(PG)方法。最终的实验结果表明,Ictineu水下机器人在跟踪海底电缆的真正自主任务中发挥了作用。为此,设计了一种称为Actor and Critic(AC)方法的算法,该算法是VF方法与PG技术融合的结果。

著录项

  • 作者

    El-Fakdi Sencianes Andrés;

  • 作者单位
  • 年度 2011
  • 总页数
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号