文摘
英文文摘
论文说明:图表目录
声明
致谢
第一章绪论
1.1强化学习
1.1.1强化学习概述
1.1.2常见强化学习算法
1.2分层强化学习
1.2.1分层强化学习概述
1.2.2常见分层强化学习算法
1.3多Agent系统
1.3.1多Agent系统研究现状
1.3.2多Agent系统研究内容
1.4论文组织结构
第二章基本的数学模型和优化算法
2.1 Markov决策过程和半Markov决策过程
2.1.1 Markov决策过程
2.1.2半Markov决策过程
2.1.3多Agent半Markov决策过程
2.2 Q学习优化算法
2.2.1 Q学习原理
2.2.2基于性能势的Q学习算法
2.3 Option优化算法
2.3.1 Option算法原理
2.3.2 Option算法
2.4本章小结
第三章基于连续时间半马尔可夫决策过程的Option算法
3.1连续时间SMDP数学模型
3.2连续时间模拟退火统一Q学习
3.2.1模拟退火算法
3.2.2连续时间模拟退火统一Q学习优化算法
3.3连续时间Option算法
3.4实验仿真
3.4.1仿真模型
3.4.2 SA-Option算法模型建立
3.4.3 SA-Q算法模型建立
3.4.4实验结果
3.5本章小结
第四章多Agent系统连续时间Option算法
4.1 MSMDP数学模型描述
4.2多Agent连续时间Option学习优化算法
4.2.1连续时间CMSA-Option优化算法
4.2.2连续时间JMSA-Option优化算法
4.3实验仿真
4.3.1仿真模型
4.3.2 CMSA-Option算法模型建立
4.3.3 JMSA-Option算法模型建立
4.3.4实验结果
4.4本章小结
第五章总结
参考文献
攻读硕士学位期间主要科研工作和成果