声明
致谢
变量注释表
1 绪论
1.1 研究背景及意义(Research Background and Significance)
1.2 国内外研究现状(Research Actuality)
1.3 研究目标及内容(Research Objectives and Contents)
1.4 论文章节安排(Thesis Chapter Arrangement)
2 相关工作
2.1 马尔科夫决策过程(Markov Decision Process)
2.2 基 于 值 函 数 的 深 度 强 化 学 习 ( Value-Based Deep Reinforcement Learning)
2.3 基于策略的深度强化学习(Policy-Based Deep Reinforcement Learning)
2.4 深度强化学习面临的挑战(Challenges of Deep Reinforcement Learning)
2.5 本章小结(Conclusions of the Chapter)
3 基于推断的后验参数分布优化
3.1 研究背景(Research Background)
3.2 基于推断的后验参数分布优化( Inference-Based Posteriori Parameter Distribution Optimization)
3.3 实验结果与分析(Experimental Results and Analysis)
3.4 本章小结(Conclusions of the Chapter)
4 近端参数分布优化
4.1 研究背景(Research Background)
4.2 近端参数分布优化( Proximal Parameter Distribution Optimization)
4.3 实验结果与分析(Experimental Results and Analysis)
4.4 本章小结(Conclusions of the Chapter)
5 基于演示的策略优化
5.1 研究背景(Research Background)
5.2 基 于 演 示 的 策 略 优 化 ( Demonstration-Based Policy Optimization)
5.3 实验结果与分析(Experimental Results and Analysis)
5.4 本章小结(Conclusions of the Chapter)
6 基于演示的内部回报机制
6.1 研究背景(Research Background)
6.2 基于演示的内部回报机制( Demonstration-Based Internal Reward Mechanism)
6.3 实验结果与分析(Experimental Results and Analysis)
6.4 本章小结(Conclusions of the Chapter)
7 总结与展望
7.1 总结(Conclusions)
7.2 展望(Prospects)
参考文献
作者简历
学位论文数据集
中国矿业大学中国矿业大学(江苏);