首页> 外文会议>Chinese Control Conference >多Agent系统连续时间Option算法
【24h】

多Agent系统连续时间Option算法

机译:多Agent系统连续时间Option算法

获取原文

摘要

传统用于解决多Agent系统的分层强化学习(Hierachical Reinforcement Learning, HRL),基本上是建立在离散时间多Agent半马尔科夫决策过程(Discrete Time Multi-Agent Semi-Markov Decision Processes, DT-MSMDP)和折扣准则基础上,无法解决连续时间多Agent无穷任务问题。因此本文在连续时间多Agent半马尔科夫决策过程(Continue Time Multi-Agent Semi-Markov Decision Processes, CT-MSMDP)框架下,结合现有的 Option 算法思想,给出一种在上层采用Agent之间进行宏行动交互,并适用于平均或折扣性能准则的多Agent连续时间Option分层强化学习模型和学习优化算法,用于解决连续时间多Agent无穷任务问题。最后通过以多Agent垃圾收集系统为仿真实例,说明这种分层强化学习优化算法与上层采用联合状态联合宏行动的多Agent连续时间Option算法相比,具有优化精度高、优化速度快和节约存储空间的优势。
机译:传统用于解决多Agent系统的分层强化学习(Hierachical Reinforcement Learning, HRL),基本上是建立在离散时间多Agent半马尔科夫决策过程(Discrete Time Multi-Agent Semi-Markov Decision Processes, DT-MSMDP)和折扣准则基础上,无法解决连续时间多Agent无穷任务问题。因此本文在连续时间多Agent半马尔科夫决策过程(Continue Time Multi-Agent Semi-Markov Decision Processes, CT-MSMDP)框架下,结合现有的 Option 算法思想,给出一种在上层采用Agent之间进行宏行动交互,并适用于平均或折扣性能准则的多Agent连续时间Option分层强化学习模型和学习优化算法,用于解决连续时间多Agent无穷任务问题。最后通过以多Agent垃圾收集系统为仿真实例,说明这种分层强化学习优化算法与上层采用联合状态联合宏行动的多Agent连续时间Option算法相比,具有优化精度高、优化速度快和节约存储空间的优势。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号