首页> 中文学位 >基于状态预测的协作式多智能体强化学习算法研究
【6h】

基于状态预测的协作式多智能体强化学习算法研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景、目的及意义

1.2 国内外研究现状

1.2.1 抽象方法

1.2.2 泛化方法

1.3 研究内容

1.4 论文结构

第二章 基于状态预测的多智能体强化学习降维

2.1 单智能体强化学习

2.1.1 单智能体系统特点

2.1.2 单智能体系统描述

2.1.3 单智能体系统典型框架和算法分析

2.2 多智能体强化学习

2.2.1 多智能体系统特点

2.2.2 多智能体系统描述

2.2.3 多智能体系统典型框架和算法分析

2.3 状态预测方法

2.3.1 维数灾难问题

2.3.2 基于状态预测的降维

2.4 小结

第三章 基于联合状态值函数逼近的多智能体Q学习

3.1 MQVA算法设计与收敛性证明

3.1.1 MQVA算法设计

3.1.2 MQVA算法收敛性证明

3.2 MQVA算法实现

3.2.1 联合状态值函数逼近

3.2.2 MQVA算法流程

3.3 仿真实验与分析

3.3.1 仿真环境的建立

3.3.2 仿真结果及分析

3.4 小结

第四章 基于最优跟踪的多智能体强化学习框架和算法

4.1 OTA算法框架设计

4.2 OTA算法实现

4.2.1 状态预测机制设计

4.2.2 动作选择机制设计

4.2.3 OTA算法流程

4.3 仿真实验与分析

4.3.1 仿真环境的建立

4.3.2 仿真结果及分析

4.4 小结

第五章 结论与展望

5.1 结论

5.2 展望

参考文献

致谢

攻读学位期间主要的研究成果

展开▼

摘要

本文以协作式多智能体系统为研究对象,研究应用强化学习进行多智能体协作行为学习时遇到的“维数灾难”问题。起源于单智能体系统的强化学习具有良好的自学习特性,为了提高多智能体系统协作行为的智能性和适应性,许多学者将强化学习引入到多智能体系统中,然而,强化学习本身存在“维数灾难”问题,在引入到多智能体系统后,学习和存储空间将随着智能体个数的增加而呈指数级增长,“维数灾难”问题变得更加严重,导致学习效率下降,甚至不能在有效时间内收敛,阻碍了其在多智能体系统的推广和应用。
   本文针对多智能体系统中强化学习的“维数灾难”问题进行研究,通过在多智能体强化学习算法中引入状态预测机制,将多智能体的学习空间进行合理、有效地分解,一方面,降低学习空间规模,缓解“维数灾难”;另一方面,保证算法的收敛性,提高智能体决策水平。首先,利用强化学习的基本定义,分析强化学习在应用于多智能体系统中产生“维数灾难”的根本原因,提出基于状态预测的多智能体强化学习算法总体思路,为解决“维数灾难”问题提供理论支撑和方法指导。其次,从状态预测角度出发,提出一种基于联合状态值函数逼近的多智能体强化学习算法。通过将学习过程分解为降维空间的强化学习和联合状态空间的值函数学习两个并行过程,缓解“维数灾难”问题,同时在一定假设基础上给出算法的收敛性证明。然后,为突破上述假设,进一步拓展算法的适用范围,采用一种新颖的思路,将其它智能体视为环境的一部分,形成一个动态的广义环境。利用强化学习的最优策略学习能力和状态预测机制对降维学习过程中环境信息缺失的弥补作用,提出一种新的基于最优跟踪的多智能体强化学习框架,并设计符合该框架特点的状态预测机制和动作选择机制,并在模型强化学习算法的基础上实现该框架。最后,利用典型的多智能体协作任务----协作搬运和队形控制进行仿真研究,验证算法的正确性和有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号