声明
答辩决议书
第一章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 本文研究内容
1.4 本文组织结构
第二章 相关理论及技术
2.1 深度强化学习
2.1.1 马尔科夫决策过程--MDP
2.1.2 贝尔曼(Bellman)方程式
2.1.3 深度强化学习
2.1.4 深度强化学习算法
2.2 多智能体深度强化学习迁移
第三章 面向多智能体规模变化的序列强化学习算法
3.1 问题分析
3.2 序列多智能体强化学习算法
3.2.1 算法介绍
3.2.2 算法流程
3.3 实验
3.3.1 实验环境介绍
3.3.2 奖励函数设计
3.3.3 实验设计
3.3.4 实验结果以及分析
3.3.5 算法有效性分析
3.4 本章小结
第四章 融合监督学习的深度强化学习算法
4.1 问题分析
4.2 融合监督学习的深度强化学习算法
4.2.1 算法介绍
4.2.2 算法流程
4.3 实验
4.3.1 实验设计
4.3.2 实验结果
4.4 本章小结
第五章 一种模块化的深度强化学习模型
5.1 问题分析
5.2 一种模块化的深度强化学习模型
5.3 实验
5.3.1 实验环境介绍
5.3.2 实验奖励设置
5.3.3 实验设计
5.3.4 实验结果及分析
5.4 本章小结
第六章 总结与展望
6.1 总结
6.2 展望
参考文献
攻读学位期间取得的研究成果
致谢
太原理工大学;