文摘
英文文摘
论文说明
独创性声明及学位论文版权使用授权书
致谢
第一章绪论
1.1引言
1.2强化学习的历史
1.3强化学习的现状
1.4本文的组织
第二章强化学习模型及主要算法
2.1概述
2.2马尔可夫决策过程(MDP)模型
2.3动态规划值迭代
2.3.1值迭代
2.3.2策略迭代
2.4蒙特卡洛算法(Monte Carlo)
2.5即时差分学习TD(Temporal Difference Learning)
2.5.1即时差分(Temporal Difference,TD)
2.5.2探索与利用(Exploration versus Exploitation)
2.5.3行动-评价器(Actor-Critic)
2.5.4.Sarsa算法
2.5.5 Q学习
2.6多步强化学习
2.6.1 TD(λ)
2.6.2 Sarsa(λ)
2.6.3.Q(λ)
2.7小结
第三章神经网络和强化学习
3.1引言
3.2值函数近似
3.2.1强化学习和近似器
3.2.2.线性值函数近似
3.3神经网络和强化学习
3.3.1 MLP和RL
3.3.2 RBF神经网络
3.3.3基于RBF网络的强化学习算法
3.3.4实验
3.4小结
第四章基于实例学习的强化学习算法
4.1引言
4.2实例学习
4.3基于实例的强化学习算法
4.3.1值函数预测
4.3.2值函数更新(RL部分)
4.3.3算法的分析
4.3.4实验
4.4小结
第五章总结和展望
5.1总结
5.2未来工作
参考文献:
在读硕期间发表的学术论文及参与的项目