文摘
英文文摘
声明
第一章绪论
1.1课题背景
1.2强化学习的发展历史与研究现状
1.3强化学习的应用领域
1.4本文的主要工作
第二章强化学习算法的研究
2.1基本原理和模型
2.2强化学习的基本知识
2.2.1评价函数
2.2.2 Markov决策过程
2.3动态规划方法
2.3.1策略迭代
2.3.2值迭代
2.4时间差分
2.4.1 TD(O)
2.4.2 n步截断回报与λ-回报
2.4.3适合度轨迹
2.4.4自适应启发评价算法
2.5 Q-Learning强化学习算法
2.5.1 Q学习算法
2.5.2多步Q学习算法
2.6其他典型算法
2.6.1 Sarsa学习算法(Sarsa-Learning)
2.6.2 R-Lgarning学习算法
2.7本章小结
第三章强化学习算法在路径寻优中的应用
3.1概述
3.2迷宫问题环境描述
3.3迷宫问题仿真环境的建立
3.4迷宫问题仿真实验及结果分析
3.4.1仿真程序流程
3.4.2结果分析
3.5 O学习的改进算法
3.5.1 Q(λ)学习
3.5.2多步Q学习
3.5.3 Q学习与多步Q学习的比较分析
3.6本章小结
第四章基于强化学习算法的倒立摆控制系统
4.1倒立摆系统简介
4.2倒立摆系统的控制算法
4.3基于表格型强化学习算法对倒立摆的控制
4.3.1表格型的强化学习算法
4.3.2仿真实验
4.4模糊强化学习实现倒立摆控制
4.4.1 Fuzzv-Q学习
4.4.2仿真实验及结果分析
4.5本章小结
第五章强化学习算法在中和反应控制中的应用
5.1概述
5.2问题模型
5.2.1实验建立模型
5.2.2基于强化学习算法的中和反应控制系统
5.3仿真实验
5.3.1环境的定义
5.3.2行为的定义
5.3.3报酬的定义
5.3.4 Q-learning算法的仿真结果分析
5.4本章小结
第六章基于强化学习算法的电梯群控系统的仿真
6.1电梯群组调度概述
6.1.1电梯群组调度系统基本概念
6.1.2电梯群组调度方法
6.2基于强化学习算法的电梯群组调度
6.2.1建立强化学习算法环境
6.2.2强化学习调度算法
6.2.3电梯调度算法流程
6.3仿真实验与结果分析
6.3.1仿真环境的开发
6.3.2仿真结果分析
6.4本章小结
第七章总结与展望
7.1研究总结
7.2工作展望
参考文献
致谢
研究成果及发表的学术论文
作者和导师简介