首页> 中文学位 >Q-learning强化学习算法改进及其应用研究
【6h】

Q-learning强化学习算法改进及其应用研究

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1课题背景

1.2强化学习的发展历史与研究现状

1.3强化学习的应用领域

1.4本文的主要工作

第二章强化学习算法的研究

2.1基本原理和模型

2.2强化学习的基本知识

2.2.1评价函数

2.2.2 Markov决策过程

2.3动态规划方法

2.3.1策略迭代

2.3.2值迭代

2.4时间差分

2.4.1 TD(O)

2.4.2 n步截断回报与λ-回报

2.4.3适合度轨迹

2.4.4自适应启发评价算法

2.5 Q-Learning强化学习算法

2.5.1 Q学习算法

2.5.2多步Q学习算法

2.6其他典型算法

2.6.1 Sarsa学习算法(Sarsa-Learning)

2.6.2 R-Lgarning学习算法

2.7本章小结

第三章强化学习算法在路径寻优中的应用

3.1概述

3.2迷宫问题环境描述

3.3迷宫问题仿真环境的建立

3.4迷宫问题仿真实验及结果分析

3.4.1仿真程序流程

3.4.2结果分析

3.5 O学习的改进算法

3.5.1 Q(λ)学习

3.5.2多步Q学习

3.5.3 Q学习与多步Q学习的比较分析

3.6本章小结

第四章基于强化学习算法的倒立摆控制系统

4.1倒立摆系统简介

4.2倒立摆系统的控制算法

4.3基于表格型强化学习算法对倒立摆的控制

4.3.1表格型的强化学习算法

4.3.2仿真实验

4.4模糊强化学习实现倒立摆控制

4.4.1 Fuzzv-Q学习

4.4.2仿真实验及结果分析

4.5本章小结

第五章强化学习算法在中和反应控制中的应用

5.1概述

5.2问题模型

5.2.1实验建立模型

5.2.2基于强化学习算法的中和反应控制系统

5.3仿真实验

5.3.1环境的定义

5.3.2行为的定义

5.3.3报酬的定义

5.3.4 Q-learning算法的仿真结果分析

5.4本章小结

第六章基于强化学习算法的电梯群控系统的仿真

6.1电梯群组调度概述

6.1.1电梯群组调度系统基本概念

6.1.2电梯群组调度方法

6.2基于强化学习算法的电梯群组调度

6.2.1建立强化学习算法环境

6.2.2强化学习调度算法

6.2.3电梯调度算法流程

6.3仿真实验与结果分析

6.3.1仿真环境的开发

6.3.2仿真结果分析

6.4本章小结

第七章总结与展望

7.1研究总结

7.2工作展望

参考文献

致谢

研究成果及发表的学术论文

作者和导师简介

展开▼

摘要

由于强化学习不需要教师信号,能在与环境的交互过程中不断地完善自己的认知技能,因此对于求解复杂的控制与决策问题具有更广泛的应用前景。课题选用强化学习算法中经典的Q-Learning算法,并结合不同的控制对象为实验模型,在已有强化学习算法的基础上加以改进,将Q-learning算法中的状态模糊化。此外结合神经网络,提出了自己的研究模型和见解。将这些改进应用到走迷宫寻优、倒立摆系统控制、中和反应控制及电梯群控器的调度中。主要研究成果包括以下四个方面: 1、介绍一级倒立摆系统。提出了基于Q-learning强化学习算法对倒立摆的控制。由于学习系统仅有4个离散的控制动作,控制精度比较差。鉴于上述缺陷,提出Fuzzy-Q学习实现倒立摆控制,使得控制器的输出为连续信号,有效的提高了控制精度。 2、将Q学习和多步Q学习的算法应用到走迷宫路径寻优中,并对Q学习算法的参数进行比较分析。 3、以中和反应控制为例,将强化学习算法渗透到生物、化学工业学科领域中。为该领域的发展提出一个新的研究方向。 4、首先,阐述电梯群组调度基本概念。总结现有的电梯群组调度方法。其次,将神经网络与Q学习算法结合应用到电梯群组调度问题。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号