封面
声明
中文摘要
英文摘要
目录
第一章 引言
1.1 研究背景与意义
1.2 研究现状
1.3 本文研究内容
1.4 本文的组织结构
第二章 连续空间非参函数逼近的理论基础
2.1 马尔可夫决策过程
2.2 行动者-评论家(Actor-Critic, AC)
2.3 策略梯度基本概念
2.4 非参函数逼近器
2.5 ALD核稀疏化方法
2.6 本章小结
第三章 基于核的递归最小二乘AC算法
3.1 基于ALD的非参函数逼近
3.2 基于核的递归最小二乘AC算法
3.3 仿真实验
3.4 本章小结
第四章 基于最小二乘支持向量回归的AC算法
4.1 LSSVR算法逼近状态值函数
4.2 基于最小二乘支持向量回归的AC算法
4.3 仿真实验
4.4 本章小结
第五章 基于GPTD的在线AC算法
5.1 TD学习的高斯过程
5.2 基于GPTD的在线AC算法
5.3 仿真实验
5.4 本章小结
第六章 总结与展望
6.1 本文总结
6.2 工作展望
参考文献
攻读硕士学位期间公开发表的论文与科研项目
致谢