声明
摘要
第一章 绪论
1.1 研究背景、目的及意义
1.2 国内外研究现状
1.2.1 抽象方法
1.2.2 泛化方法
1.3 研究内容
1.4 论文结构
第二章 基于状态预测的多智能体强化学习降维
2.1 单智能体强化学习
2.1.1 单智能体系统特点
2.1.2 单智能体系统描述
2.1.3 单智能体系统典型框架和算法分析
2.2 多智能体强化学习
2.2.1 多智能体系统特点
2.2.2 多智能体系统描述
2.2.3 多智能体系统典型框架和算法分析
2.3 状态预测方法
2.3.1 维数灾难问题
2.3.2 基于状态预测的降维
2.4 小结
第三章 基于联合状态值函数逼近的多智能体Q学习
3.1 MQVA算法设计与收敛性证明
3.1.1 MQVA算法设计
3.1.2 MQVA算法收敛性证明
3.2 MQVA算法实现
3.2.1 联合状态值函数逼近
3.2.2 MQVA算法流程
3.3 仿真实验与分析
3.3.1 仿真环境的建立
3.3.2 仿真结果及分析
3.4 小结
第四章 基于最优跟踪的多智能体强化学习框架和算法
4.1 OTA算法框架设计
4.2 OTA算法实现
4.2.1 状态预测机制设计
4.2.2 动作选择机制设计
4.2.3 OTA算法流程
4.3 仿真实验与分析
4.3.1 仿真环境的建立
4.3.2 仿真结果及分析
4.4 小结
第五章 结论与展望
5.1 结论
5.2 展望
参考文献
致谢
攻读学位期间主要的研究成果