封面
声明
中文摘要
英文摘要
目录
第一章 引言
1.1研究背景及意义
1.2国内外研究现状
1.3主要工作
1.4论文组织结构
第二章 相关工作
2.1强化学习的基本原理
2.2贝叶斯推理
2.3高斯过程
2.4几种常用的强化学习方法
2.5本章小结
第三章 基于优先级扫描Dyna结构的贝叶斯Q学习
3.1 Dyna结构以及优先级扫描
3.2优先级扫描Dyna结构的贝叶斯Q学习算法及分析
3.3实验及结果分析
3.4本章小结
第四章 基于随机投影的高斯过程时间差分算法
4.1高斯过程时间差分算法
4.2基于随机投影的高斯过程时间差分算法及分析
4.3基于随机投影的高斯过程时间差分算法
4.4实验及结果分析
4.5本章小结
第五章 基于状态依赖探索的贝叶斯策略梯度算法
5.1策略梯度强化学习框架
5.2贝叶斯积分梯度估计方法
5.3状态依赖探索的贝叶斯策略梯度算法
5.4实验结果分析
5.5本章小结
第六章 总结与展望
6.1本文工作总结
6.2工作展望
参考文献
攻读硕士学位期间发表(录用)的论文及参与的项目
致谢