声明
第一章 绪论
1.1 研究背景与意义
1.2.1 国外研究现状
1.2.2 国内研究现状
1.3 本文研究工作
第二章 强化学习基础研究
2.1机器学习简述
2.2强化学习基本原理及系统组成
2.2.1强化学习系统组成
2.2.2马尔科夫决策过程
第三章 强化学习算法与改进的强化学习算法
3.1模型已知的强化学习算法
3.1.1 策略迭代算法(Policy Interation Method)
3.1.2价值迭代算法(Value Iteration Method)
3.2模型未知的强化学习算法
3.2.1蒙特卡洛算法(Monte Carlo Method)
3.2.2 时序差分算法(Temporal-Difference Learning)
3.2.3 SARSA 算法
3.2.4 Q-Learning算法
3.2.5 DQN算法
3.3基于Q-Learning与DQN的改进算法
3.3.1基于Q-Learning的动作控制改进算法
3.3.2基于DQN的动作控制改进算法
第四章 实验设计与结果分析
4.1实验设计
4.2.1 Open AI与Gym
4.2.2 ALE与Atari 2600
4.2.3实验环境预处理
4.3实验结果分析
4.3.1改进算法的实验分析
4.3.2 与不同算法的对比实验
4.4实验总结与展望
第五章 总结与展望
5.1总结
5.2展望
致谢
参考文献
攻读学位期间参加科研项目情况及获得的学术成果
西安石油大学;