声明
摘要
第一章绪论
1.1引言
1.2前人的研究成果
1.3本文研究内容
1.4本文的组织结构
2.1引言
2.2强化学习理论
2.2.1马尔科夫决策过程
2.2.2值函数
2.2.3时序差分学习
2.2.4 Q学习算法
2.2.5目标函数
2.2.6策略梯度
2.3深度强化学习理论
2.3.1深度Q学习算法
2.3.2经验回放机制
2.4本章小结
第三章基于动作-评价网络的线性预估器加速算法研究
3.1引言
3.2.1 ALA-AC算法框架
3.2.2评价网络的改进
3.2.3动作网络的设计
3.3实验方案及结果分析
3.3.1实验环境选取和设计
3.3.2奖励函数的设计
3.3.3实验结果及分析
3.4本章小结
第四章基于ALA-AC算法的目标函数改进与应用
4.1引言
4.2基于均方投影贝尔曼误差的目标函数改进
4.2.1均方投影贝尔曼误差
4.2.2梯度时序差分算法及改进
4.2.3时序差分梯度矫正算法
4.3实验方案及结果分析
4.3.1倒立摆控制问题
4.3.2无人车路径规划问题
4.4本章小结
第五章总结与展望
5.1总结
5.2展望
参考文献
致谢
研究成果及发表的学术论文
导师和作者简介
北京化工大学;