声明
摘要
第1章 绪论
1.1 研究背景和意义
1.2 国内外研究现状分析
1.3 研究目标
1.4 研究内容
1.5 论文组织结构
第2章 马尔可夫决策理论预备知识
2.1 马尔可夫决策基本模型
2.2 部分可观测马尔可夫决策基本模型
2.3 分布式部分可观测马尔可夫决策模型
2.4 本章小结
第3章 地-空多智能体模型设计
3.1 环境地图模型搭建
3.2 运动学模型搭建
3.2.1 地面移动车辆运动学模型
3.2.2 四旋翼飞行器运动学模型
3.3 无人驾驶地面车辆的观测模型设计
3.3.1 抽象的环境扫描模型
3.3.2 基于运动模型的最小观测器
3.4 无人飞行器观测模型及通讯模型设计
3.4.1 无人飞行器观测模型
3.4.2 无人飞行器通讯模型
3.5 本章小结
第4章 POMDP算法研究
4.1 POMDP模型求解算法
4.1.1 QMDP算法
4.1.2 Q学习算法
4.2 单智能体覆盖问题研究
4.2.1 单智能体覆盖问题描述
4.2.2 单智能体环境覆盖实验
4.2.3 不同模型参数对仿真结果的影响
4.3 本章小结
第5章 DEC-POMDPs算法研究及实现
5.1 DEC-POMDPs模型求解算法
5.1.1 MAOP算法
5.2 地面多智能体群组仿真实验
5.2.1 DEC-POMDPs模型搭建
5.2.2 仿真结果
5.3 忽略通讯代价的地-空多智能体系统仿真实验
5.3.1 DEC-POMDPs模型搭建
5.3.2 地-空多智能体强化学习流程
5.3.3 仿真结果
5.4 考虑通讯策略的地-空多智能体系统仿真实验
5.4.1 DEC-POMDPs模型搭建
5.4.2 多智能体强化学习决策框架
5.4.3 仿真结果
5.5 本章小结
第6章 多智能体强化学习工具箱设计
6.1 引言
6.2 多智能体工具箱框架及主要模块
6.2.1 智能体模块
6.2.2 地图环境模块
6.2.3 强化学习模块
6.2.4 持久层模块
6.2.5 仿真场景模块
6.2.6 公用工具类函数库
6.3 可视化界面设计
6.4 本章小结
总结和展望
致谢
参考文献
攻读硕士学位期间的论文及科研情况