基于状态预测的协作式多智能体强化学习算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

本文以协作式多智能体系统为研究对象，研究应用强化学习进行多智能体协作行为学习时遇到的“维数灾难”问题。起源于单智能体系统的强化学习具有良好的自学习特性，为了提高多智能体系统协作行为的智能性和适应性，许多学者将强化学习引入到多智能体系统中，然而，强化学习本身存在“维数灾难”问题，在引入到多智能体系统后，学习和存储空间将随着智能体个数的增加而呈指数级增长，“维数灾难”问题变得更加严重，导致学习效率下降，甚至不能在有效时间内收敛，阻碍了其在多智能体系统的推广和应用。
　　本文针对多智能体系统中强化学习的“维数灾难”问题进行研究，通过在多智能体强化学习算法中引入状态预测机制，将多智能体的学习空间进行合理、有效地分解，一方面，降低学习空间规模，缓解“维数灾难”;另一方面，保证算法的收敛性，提高智能体决策水平。首先，利用强化学习的基本定义，分析强化学习在应用于多智能体系统中产生“维数灾难”的根本原因，提出基于状态预测的多智能体强化学习算法总体思路，为解决“维数灾难”问题提供理论支撑和方法指导。其次，从状态预测角度出发，提出一种基于联合状态值函数逼近的多智能体强化学习算法。通过将学习过程分解为降维空间的强化学习和联合状态空间的值函数学习两个并行过程，缓解“维数灾难”问题，同时在一定假设基础上给出算法的收敛性证明。然后，为突破上述假设，进一步拓展算法的适用范围，采用一种新颖的思路，将其它智能体视为环境的一部分，形成一个动态的广义环境。利用强化学习的最优策略学习能力和状态预测机制对降维学习过程中环境信息缺失的弥补作用，提出一种新的基于最优跟踪的多智能体强化学习框架，并设计符合该框架特点的状态预测机制和动作选择机制，并在模型强化学习算法的基础上实现该框架。最后，利用典型的多智能体协作任务----协作搬运和队形控制进行仿真研究，验证算法的正确性和有效性。

著录项

作者
陈刚;
展开▼
作者单位

中南大学;

展开▼
授予单位中南大学;
学科控制科学与工程
授予学位硕士
导师姓名何勇,陈鑫;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类智能机器人;自动推理、机器学习;
关键词
人工智能; 多智能体; 机器学习; 状态预测;

相似文献

中文文献
外文文献
专利

1. 基于强化学习的煤矸石分拣机械臂智能控制算法研究 [J] . 张永超 ,于智伟 ,丁丽林 . 工矿自动化 . 2021,第001期
2. 基于强化学习的混合智能控制算法研究与分析 [J] . 陈玉明 ,张广明 ,赵英凯 . 机床与液压 . 2010,第020期
3. 基于智能强化学习的遗传算法研究 [J] . 叶婉秋 . 智能计算机与应用 . 2010,第002期
4. 基于强化学习单元匹配循环神经网络的滚动轴承状态趋势预测 [J] . 李锋 ,陈勇 ,王家序 . 计算机集成制造系统 . 2020,第008期
5. 基于多智能体遗传算法优化的航空电子设备状态组合预测 [J] . 赵建忠 ,欧阳中辉 ,张磊 . 兵工学报 . 2016,第004期
6. 基于行为预测的合作式多智能体强化学习 [C] . Chen Gang ,陈刚 ,He Yong . 2010第六届全国多智能体系统与控制学术年会 . 2010
7. 基于强化学习的异构多智能体区域覆盖算法研究 [A] . 王晓东 . 2016

基于状态预测的协作式多智能体强化学习算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅