强化学习在倒立摆起摆及平衡控制中的应用研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

倒立摆系统足一个典型的多变量、非线性、高阶次、强耦合的自不稳定系统，只有采用行之有的控制方法才能使其稳定在平衡位置刚近。控制中的许多关键问题，如跟踪问题、镇定问题、鲁棒性问题、非线性问题等都能在倒立摆的控制过程中反映山来。同时，双足机器人的行走、卫星和火箭的位姿调整等均与倒立摆系统具有相似之处。因此，对倒立摆系统的研究具有重要的理论价值和应用价值。传统的倒立摆控制方法如PID控制、LQR控制等都是基于模型的控制，实际中很难获得倒立摆系统的精确的数学模型。强化学习作为机器学习的一种，其与监督学习不同之处在于其不需要教师信号，它强调与环境的交互过程中获得评价性反馈信号，利用评价信息来实现行为决策的优化，不需要知道系统模型，这就避免了因建模造成的误差。因此，本文将强化学习应用于倒立摆的起摆及平衡控制任务中，重点研究了强化学习算法在倒立摆平衡控制中的应用。本义的主要成果有：(1)起摆控制方面，研究了基于Q学习算法的倒立摆起摆控制。一级倒立摆起摆仿真控制实验表明了Q学习算法在倒立摆超摆控制中的有效性。(2)平衡控制方可，在深入研究实现了最小二乘策略迭代(Least Square Policy Itcration,LSPI)以及基于稀疏核机器的最小二乘策略迭代（Kernel-based LSPI，KLSPI）两种有效的解决倒立摆平衡控制问题的强化学习算法的基础上，针对LSPI算法逼近能力、泛化能力差，KLSPI算法计算复杂度高、计算成本大的问题，提出了一种基于极限学习机(Extreme Learning Machine,ELM)的最小二乘策略迭代(ELM-LSPI)算法，在提高传统LSPI算法通近精度、泛化能力的同时，控制了其汁算成本。一级倒立摆控制仿真实验结果表明KLSPI算法和本文提的ELM-LSPI算法均能提高LSPI算法的收敛能力和泛化能力，但ELM-LSPI算法的计算成本远小于KLSPI算法，更利于后续的实物研究和在线算法的拓展。

著录项

作者
毛文杰;
展开▼
作者单位

西安理工大学;

展开▼
授予单位西安理工大学;
学科模式识别与智能系统
授予学位硕士
导师姓名辛菁;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类
关键词
强化学习; 倒立摆; 平衡控制;

相似文献

中文文献
外文文献
专利

1. 基于强化学习的倒立摆起摆与平衡全过程控制 [J] . 张荣 ,陈卫东 . 系统工程与电子技术 . 2004,第001期
2. 基于切换方法的倒立摆起振和平衡控制 [J] . 刘安家 ,陈启军 . 机电一体化 . 2009,第6期
3. 自立倒立摆系统的自摆起及稳定控制 [J] . 刘继光 ,王丽军 ,袁浩 . 实验技术与管理 . 2015,第011期
4. 逆系统轨迹控制二级倒立摆自动摆起 [J] . 张永立 ,程会锋 ,李洪兴 . 大连理工大学学报 . 2011,第006期
5. 三级倒立摆的自动摆起与稳定控制 [J] . 张永立 ,程会锋 ,李洪兴 . 控制理论与应用 . 2011,第001期
6. 基于能量和ANFIS的倒立摆起摆和稳摆控制 [C] . 郭毓 ,王强 ,刘萍 . 2007年中国智能自动化会议 . 2007
7. 基于DSP两轮移动倒立摆小车在平衡控制中的应用研究 [A] . 许东昌 . 2014

强化学习在倒立摆起摆及平衡控制中的应用研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅