首页> 中文学位 >基于强化学习的异构多智能体区域覆盖算法研究
【6h】

基于强化学习的异构多智能体区域覆盖算法研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景和意义

1.2 国内外研究现状分析

1.3 研究目标

1.4 研究内容

1.5 论文组织结构

第2章 马尔可夫决策理论预备知识

2.1 马尔可夫决策基本模型

2.2 部分可观测马尔可夫决策基本模型

2.3 分布式部分可观测马尔可夫决策模型

2.4 本章小结

第3章 地-空多智能体模型设计

3.1 环境地图模型搭建

3.2 运动学模型搭建

3.2.1 地面移动车辆运动学模型

3.2.2 四旋翼飞行器运动学模型

3.3 无人驾驶地面车辆的观测模型设计

3.3.1 抽象的环境扫描模型

3.3.2 基于运动模型的最小观测器

3.4 无人飞行器观测模型及通讯模型设计

3.4.1 无人飞行器观测模型

3.4.2 无人飞行器通讯模型

3.5 本章小结

第4章 POMDP算法研究

4.1 POMDP模型求解算法

4.1.1 QMDP算法

4.1.2 Q学习算法

4.2 单智能体覆盖问题研究

4.2.1 单智能体覆盖问题描述

4.2.2 单智能体环境覆盖实验

4.2.3 不同模型参数对仿真结果的影响

4.3 本章小结

第5章 DEC-POMDPs算法研究及实现

5.1 DEC-POMDPs模型求解算法

5.1.1 MAOP算法

5.2 地面多智能体群组仿真实验

5.2.1 DEC-POMDPs模型搭建

5.2.2 仿真结果

5.3 忽略通讯代价的地-空多智能体系统仿真实验

5.3.1 DEC-POMDPs模型搭建

5.3.2 地-空多智能体强化学习流程

5.3.3 仿真结果

5.4 考虑通讯策略的地-空多智能体系统仿真实验

5.4.1 DEC-POMDPs模型搭建

5.4.2 多智能体强化学习决策框架

5.4.3 仿真结果

5.5 本章小结

第6章 多智能体强化学习工具箱设计

6.1 引言

6.2 多智能体工具箱框架及主要模块

6.2.1 智能体模块

6.2.2 地图环境模块

6.2.3 强化学习模块

6.2.4 持久层模块

6.2.5 仿真场景模块

6.2.6 公用工具类函数库

6.3 可视化界面设计

6.4 本章小结

总结和展望

致谢

参考文献

攻读硕士学位期间的论文及科研情况

展开▼

摘要

面向地-空多智能体系统的区域覆盖问题,建立了基于分布式部分可观测马尔可夫决策模型(DEC-POMDPs)描述观测异构、驱动模式异构的多智能体系统,通过强化学习算法解决多智能体系统的路径规划及避障问题,主要包括以下几个方面的研究内容:
  首先介绍了由马尔可夫决策模型(MDP)向DEC-POMDPs模型的演变过程。由于智能体模型观测的局部特性和不确定性,各智能体获得的观测不再具备马尔可夫性,导致DEC-POMDPs模型求解最优结果时策略空间维度爆炸——即NEXP完全问题。
  其次,针对单智能体搭建了基于POMDP模型的区域覆盖仿真场景,利用QMDP算法和Q-learning算法求解行动策略。通过调整模型参数,分析了观测不确定性和观测精度对POMDP强化学习收敛效果的影响。
  再次,实现了基于DEC-POMDPs模型的多智能体在线规划算法,并搭建了多个多智能体仿真场景,验证算法的有效性。考虑到通讯动作的低耗时和高时效性,根据通讯动作判断智能体是否获得联合观测,设计一种包含多个强化学习模块的异构多智能体强化学习决策框架,在不影响分布式强化学习收敛速度的前提下,有效降低了通讯频率,提高了多智能体系统在隐性马尔科夫决策过程中的状态辨识度和决策效率。
  为了方便理论验证和理论分析,开发了基于MATLAB软件的多智能体强化学习工具箱,搭建了完善的强化学习仿真运算框架,实现了智能体运动学模型、地图环境仿真、强化学习算法等模块,设计实现了持久层模块,借助数据库技术改善了MATLAB软件处理超大矩阵数据的能力,为实验验证提供运算能力支撑。通过预定义接口、面对对象编程方法优化了各模块间的耦合方式,便于使用、改进或针对该工具箱进行二次开发。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号