首页> 中文学位 >强化学习在倒立摆起摆及平衡控制中的应用研究
【6h】

强化学习在倒立摆起摆及平衡控制中的应用研究

代理获取

目录

2150320182-毛文杰-模式识别与智能系统 (答辩修改版)

2150320182-毛文杰-模式识别与智能系统 -自动化学院

展开▼

摘要

倒立摆系统足一个典型的多变量、非线性、高阶次、强耦合的自不稳定系统,只有采用行之有的控制方法才能使其稳定在平衡位置刚近。控制中的许多关键问题,如跟踪问题、镇定问题、鲁棒性问题、非线性问题等都能在倒立摆的控制过程中反映山来。同时,双足机器人的行走、卫星和火箭的位姿调整等均与倒立摆系统具有相似之处。因此,对倒立摆系统的研究具有重要的理论价值和应用价值。 传统的倒立摆控制方法如PID控制、LQR控制等都是基于模型的控制,实际中很难获得倒立摆系统的精确的数学模型。强化学习作为机器学习的一种,其与监督学习不同之处在于其不需要教师信号,它强调与环境的交互过程中获得评价性反馈信号,利用评价信息来实现行为决策的优化,不需要知道系统模型,这就避免了因建模造成的误差。因此,本文将强化学习应用于倒立摆的起摆及平衡控制任务中,重点研究了强化学习算法在倒立摆平衡控制中的应用。本义的主要成果有:(1)起摆控制方面,研究了基于Q学习算法的倒立摆起摆控制。一级倒立摆起摆仿真控制实验表明了Q学习算法在倒立摆超摆控制中的有效性。(2)平衡控制方可,在深入研究实现了最小二乘策略迭代(Least Square Policy Itcration,LSPI)以及基于稀疏核机器的最小二乘策略迭代(Kernel-based LSPI,KLSPI)两种有效的解决倒立摆平衡控制问题的强化学习算法的基础上,针对LSPI算法逼近能力、泛化能力差,KLSPI算法计算复杂度高、计算成本大的问题,提出了一种基于极限学习机(Extreme Learning Machine,ELM)的最小二乘策略迭代(ELM-LSPI)算法,在提高传统LSPI算法通近精度、泛化能力的同时,控制了其汁算成本。一级倒立摆控制仿真实验结果表明KLSPI算法和本文提的ELM-LSPI算法均能提高LSPI算法的收敛能力和泛化能力,但ELM-LSPI算法的计算成本远小于KLSPI算法,更利于后续的实物研究和在线算法的拓展。

著录项

  • 作者

    毛文杰;

  • 作者单位

    西安理工大学;

  • 授予单位 西安理工大学;
  • 学科 模式识别与智能系统
  • 授予学位 硕士
  • 导师姓名 辛菁;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    强化学习; 倒立摆; 平衡控制;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号