基于强化学习的倒立摆控制算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

科技时代，人工智能充斥在生活的各个领域，从AlphaGo到AlphaZero都在诠释着它的强大。机器学习作为人工智能的核心，是使计算机具有智能的根本途径。强化学习作为机器学习研究领域的一个热门方向，其通过智能体与环境的交互作用，从中汲取经验，以自学习的方式不断更新改进控制策略，逐步达到最优或近优控制效果。由于强化学习是一种无模型无监督的机器学习方法，因此具有通用性强，适用范围广泛，参数自整定等优点，能够极大降低控制系统的设计难度和人力投入，具有广阔的应用前景。因此，研究强化学习具有重要的理论价值和实际工程应用价值。　　倒立摆系统是一个多变量、非线性、高阶次、强耦合的自不稳定系统，能够模拟反映多数常见的控制对象，其控制算法具有多输入单输出的特点，因而是一种典型的自动控制理论研究装置。以该问题作为研究对象，能够有效反映出控制算法在实际应用系统中的随动性、鲁棒性、跟踪及镇定性等问题。因此，本文以一级直线倒立摆系统为对象，进行深度强化学习算法的研究。主要研究内容以及成果如下：　　(1)对强化学习的基础概念进行介绍并分析。通过对常用强化学习算法的理论推导和马尔科夫决策过程各参数分析，为强化学习以及深度强化学习算法在倒立摆控制系统中的应用奠定了理论基础。　　(2)通过OpeAI Gym游戏库，完成了深度强化学习DQN算法、双网络DQN算法、PG算法在一级直线倒立摆平衡控制中的实验仿真。结果表明，三种控制算法均可以快速完成训练，达到对倒立摆的平衡控制。在此基础上，论文进一步研究测试了三种不同reward给定方式对算法的影响，通过实验比较，发现线性化reward方式具有最快的训练速度，从而为强化学习在真实倒立摆控制训练提供了重要经验。　　(3)搭建了基于PLC的一级直线倒立摆硬件实验平台，通过PID控制算法对倒立摆的平衡控制，验证了实验平台的有效性，并为强化学习算法的控制研究提供了测试基准。　　(4)基于DQN算法，实现了一级直线倒立摆的起摆控制。经过大约50个训练回合后，控制算法即可在200个控制周期（一个控制周期为20ms）内，使摆杆由下垂位置摆动到直立位置附近，完成倒立摆起摆控制。　　(5)基于Q学习算法，研究了倒立摆平衡控制。针对真实控制环境中噪音较大、训练量受限、部分训练样本难以获得的局限性，研究设计了具有多元训练策略的off-policy控制算法，该算法能够从人工示教或其他控制算法中获取经验，提高训练效率，从而通过有限实验快速完成训练并获得更好的控制效果。由于该方法有效降低了实验训练量，从而使强化学习算法以更小的人力投入，获得更好的控制效果，为强化学习在实际工程的应用做了初步的实践，具有良好的应用前景。

著录项

作者
杨文乐;
展开▼
作者单位

西安理工大学;

展开▼
授予单位西安理工大学;
学科控制科学与工程;控制理论与控制工程
授予学位硕士
导师姓名郑岗,徐开亮;
年度 2019
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
倒立摆,控制算法,强化学习;

相似文献

中文文献
外文文献
专利

1. 基于ELM-BP的强化学习在倒立摆控制中的研究 [J] . 王婷婷 . 电子设计工程 . 2019,第006期
2. 基于强化学习的倒立摆控制问题研究 [J] . 王杰 ,尹慧琳 ,伍淑莉 . 信息通信 . 2019,第005期
3. 基于Actor-Critic强化学习的倒立摆智能控制方法 [J] . 邱宇宸 . 武汉冶金管理干部学院学报 . 2018,第004期
4. 基于神经网络的强化学习算法实现倒立摆控制 [J] . 张涛 ,吴汉生 . 计算机仿真 . 2006,第004期
5. 基于强化学习的二级倒立摆控制 [J] . 王瑞霞 ,孙亮 ,阮晓钢 . 计算机仿真 . 2006,第004期
6. 基于能量和ANFIS的倒立摆起摆和稳摆控制 [C] . 郭毓 ,王强 ,刘萍 . 2007年中国智能自动化会议 . 2007
7. 基于直线电机的倒立摆系统自动起摆与稳摆控制算法研究 [A] . 李传阳 . 2019

基于强化学习的倒立摆控制算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅