声明
致谢
摘要
1 绪论
1.1研究背景意义
1.2 国内外研究现状
1.2.1路径规划
1.2.2多机器人的动态避障
1.2.3多智能体强化学习
1.2.4多机器人编队控制
1.3本文的主要研究内容
2深度强化学习综述
2.1马尔科夫决策过程与值函数
2.2强化学习基本算法
2.3深度强化学习算法
2.4本章小结
3单智能体强化学习算法在未知环境中的避障导航
3.1深度确定性策略梯度算法
3.2马尔科夫决策过程建模
3.3网络结构设计
3.4算法改进设计
3.5本章小结
4 多机器人系统的协同导航和避障算法
4.1马尔科夫博弈
4.2并行深度确定性策略梯度算法
4.3群体协作深度确定性策略梯度算法
4.4本章小结
5实验及结果分析
5.1仿真系统
5.1.1仿真环境搭建
5.1.2环境与程序的通信
5.2单机器人仿真实验
5.2.1实验配置
5.2.2实验结果与分析
5.3单机器人实物实验
5.3.1实验平台介绍
5.3.2实验准备工作
5.3.3实验结果与分析
5.4多机器人协同实验
5.4.1实验配置
5.4.2实验结果分析
5.5 多机器人编队运动实验
5.5.1编队实验
5.5.2队形控制
5.6本章小结
6总结与展望
6.1研究总结
6.2不足与展望
参考文献
浙江大学;