基于强化学习的异构多智能体区域覆盖算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

面向地-空多智能体系统的区域覆盖问题，建立了基于分布式部分可观测马尔可夫决策模型(DEC-POMDPs)描述观测异构、驱动模式异构的多智能体系统，通过强化学习算法解决多智能体系统的路径规划及避障问题，主要包括以下几个方面的研究内容:
　　首先介绍了由马尔可夫决策模型(MDP)向DEC-POMDPs模型的演变过程。由于智能体模型观测的局部特性和不确定性，各智能体获得的观测不再具备马尔可夫性，导致DEC-POMDPs模型求解最优结果时策略空间维度爆炸——即NEXP完全问题。
　　其次，针对单智能体搭建了基于POMDP模型的区域覆盖仿真场景，利用QMDP算法和Q-learning算法求解行动策略。通过调整模型参数，分析了观测不确定性和观测精度对POMDP强化学习收敛效果的影响。
　　再次，实现了基于DEC-POMDPs模型的多智能体在线规划算法，并搭建了多个多智能体仿真场景，验证算法的有效性。考虑到通讯动作的低耗时和高时效性，根据通讯动作判断智能体是否获得联合观测，设计一种包含多个强化学习模块的异构多智能体强化学习决策框架，在不影响分布式强化学习收敛速度的前提下，有效降低了通讯频率，提高了多智能体系统在隐性马尔科夫决策过程中的状态辨识度和决策效率。
　　为了方便理论验证和理论分析，开发了基于MATLAB软件的多智能体强化学习工具箱，搭建了完善的强化学习仿真运算框架，实现了智能体运动学模型、地图环境仿真、强化学习算法等模块，设计实现了持久层模块，借助数据库技术改善了MATLAB软件处理超大矩阵数据的能力，为实验验证提供运算能力支撑。通过预定义接口、面对对象编程方法优化了各模块间的耦合方式，便于使用、改进或针对该工具箱进行二次开发。

著录项

作者
王晓东;
展开▼
作者单位

西南交通大学;

展开▼
授予单位西南交通大学;
学科控制科学与工程
授予学位硕士
导师姓名马磊;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类人工智能理论;
关键词
多智能体; 区域覆盖; 强化学习模块; 数据库;

相似文献

中文文献
外文文献
专利

1. 稀疏奖励下基于强化学习的异构多智能体对抗 [J] . 王瑞星 ,董诗音 ,江飞龙 . 信息技术 . 2021,第005期
2. 稀疏奖励下基于情感的异构多智能体强化学习 [J] . 方宝富 ,马云婷 ,王在俊 . 模式识别与人工智能 . 2021,第003期
3. 基于深度强化学习的无人机区域覆盖路径规划研究 [J] . 董加鑫 . 工业控制计算机 . 2021,第005期
4. 基于强化学习的煤矸石分拣机械臂智能控制算法研究 [J] . 张永超 ,于智伟 ,丁丽林 . 工矿自动化 . 2021,第001期
5. 基于强化学习的混合智能控制算法研究与分析 [J] . 陈玉明 ,张广明 ,赵英凯 . 机床与液压 . 2010,第020期
6. 一种多智能体区域覆盖控制策略研究 [C] . Jia Chengcheng ,贾成成 ,Yang Xuerong . 第20届中国系统仿真技术及其应用学术年会（20th CCSSTA 2019) . 2019
7. 基于高斯回归的连续空间多智能体强化学习算法研究 [A] . 魏海军 . 2013

基于强化学习的异构多智能体区域覆盖算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅