声明
致谢
1 绪论
1.1 研究课题的背景和意义
1.2 国内外研究现状
1.2.1 多移动对象运动协调系统的分类
1.2.2 多移动对象运动协调策略
1.3 本文的主要研究内容
1.4 论文的组织结构
2 相关理论知识简介
2.1 强化学习基础
2.1.1 强化学习概况
2.1.2 强化学习中的马尔可夫过程
2.1.3 强化学习算法分类
2.2 路径规划算法
2.3 碰撞检测算法
2.4 本章小结
3 多移动对象智能指挥控制系统
3.1 系统场景和问题提出
3.2 指挥控制系统的架构与流程设计
3.2.1 系统的指挥控制流程
3.2.2 系统的智能体训练流程
3.3 人机交互模块
3.4 仿真运行模块
3.4.1 路径棋盘图的构造方法
3.4.2 死锁的检测与预防
3.4.3 场景更新方法
3.5 指挥协调模块
3.5.1 碰撞预防算法
3.5.2 基于值函数的智能体网络
3.5.3 基于策略梯度的智能体网络
3.6 本章小结
4 指挥控制智能体训练算法
4.1 样本采集
4.2 奖励函数
4.3 基于DDQN的智能体训练算法
4.4 基于PPO 的智能体训练算法
4.5 实验对比与结果分析
4.5.1 实验环境
4.5.2 实验平台搭建
4.5.3 基于DDQN的训练算法实验设计与对比
4.5.4 基于PPO 的训练算法实验设计与对比
4.6 本章小结
5 总结与展望
5.1 总结
5.2 展望
参考文献
作者简历及攻读硕士学位期间取得的研究成果
独创性声明
学位论文数据集
北京交通大学;