多Agent系统连续时间Option算法

机译：多Agent系统连续时间Option算法

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

传统用于解决多Agent系统的分层强化学习(Hierachical Reinforcement Learning, HRL)，基本上是建立在离散时间多Agent半马尔科夫决策过程(Discrete Time Multi-Agent Semi-Markov Decision Processes, DT-MSMDP)和折扣准则基础上，无法解决连续时间多Agent无穷任务问题。因此本文在连续时间多Agent半马尔科夫决策过程(Continue Time Multi-Agent Semi-Markov Decision Processes, CT-MSMDP)框架下，结合现有的 Option 算法思想，给出一种在上层采用Agent之间进行宏行动交互，并适用于平均或折扣性能准则的多Agent连续时间Option分层强化学习模型和学习优化算法，用于解决连续时间多Agent无穷任务问题。最后通过以多Agent垃圾收集系统为仿真实例，说明这种分层强化学习优化算法与上层采用联合状态联合宏行动的多Agent连续时间Option算法相比，具有优化精度高、优化速度快和节约存储空间的优势。

机译：传统用于解决多Agent系统的分层强化学习(Hierachical Reinforcement Learning, HRL)，基本上是建立在离散时间多Agent半马尔科夫决策过程(Discrete Time Multi-Agent Semi-Markov Decision Processes, DT-MSMDP)和折扣准则基础上，无法解决连续时间多Agent无穷任务问题。因此本文在连续时间多Agent半马尔科夫决策过程(Continue Time Multi-Agent Semi-Markov Decision Processes, CT-MSMDP)框架下，结合现有的 Option 算法思想，给出一种在上层采用Agent之间进行宏行动交互，并适用于平均或折扣性能准则的多Agent连续时间Option分层强化学习模型和学习优化算法，用于解决连续时间多Agent无穷任务问题。最后通过以多Agent垃圾收集系统为仿真实例，说明这种分层强化学习优化算法与上层采用联合状态联合宏行动的多Agent连续时间Option算法相比，具有优化精度高、优化速度快和节约存储空间的优势。

著录项

来源
《Chinese Control Conference 》|2010年||共6页
会议地点
作者
张晓艳; 唐昊韩; 江洪; 周雷;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类 TP273-53;
关键词
连续时间多Agent半马尔科夫决策过程; 分层强化学习; Option;

机译：连续时间多Agent半马尔科夫决策过程;分层强化学习;Option;

相似文献

外文文献
中文文献
专利

1. 基于π演算的多agent系统建模与分析 [J] . 于振华, 蔡远利上海大学学报（英文版） . 2007 ,第001期

机译：基于π演算的多agent系统建模与分析
2. 随机激励下连续时间马尔科夫跳变非线性系统的平稳响应研究 [J] . Shah-shah PAN, Wei-qiu ZHU, Rong-chun HU, 浙江大学学报（英文版）（A辑：应用物理和工程） . 2017 ,第002期

机译：随机激励下连续时间马尔科夫跳变非线性系统的平稳响应研究
3. 连续时间生灭过程有限家庭树估计通信网络信息的传播速度 [J] . 马驰, 王汉兴上海大学学报（英文版） . 2007 ,第003期

机译：连续时间生灭过程有限家庭树估计通信网络信息的传播速度
4. 多Agent系统连续时间Option算法 [C] . 张晓艳, 唐昊韩, 江洪, Chinese Control Conference . 2010

机译：多Agent系统连续时间Option算法
5. LTE通訊系統中針對同層干擾環境對微小型基地台功率控制與用戶位置推薦演算法 =Femtocell Power Control and User Location Recommendation Algorithm for Co-Tier Interference Environment in LTE Communication System [D] . Shi, Guan-Fan. 2019

机译：LTE通讯系统中针对同层干扰环境对微小型基地台功率控制与用户位置推荐演算法 =Femtocell Power Control and User Location Recommendation Algorithm for Co-Tier Interference Environment in LTE Communication System
6. 四维锥形束的CT重建：基于鲁棒主成分分析的运动补偿算法 [O] . 莫英 (Ying MO), *, 刘佳 (Jia LIU), 2021

机译：四维锥形束的CT重建：基于鲁棒主成分分析的运动补偿算法
7. 连续时间Markov链的遍历度 [O] . 永华毛 2003

机译：连续时间Markov链的遍历度

多Agent系统连续时间Option算法

摘要

著录项

相似文献

相关主题

期刊订阅