首页> 中文学位 >连续时间分层强化学习算法
【6h】

连续时间分层强化学习算法

代理获取

目录

文摘

英文文摘

论文说明:图表目录

声明

致谢

第一章绪论

1.1强化学习

1.1.1强化学习概述

1.1.2常见强化学习算法

1.2分层强化学习

1.2.1分层强化学习概述

1.2.2常见分层强化学习算法

1.3多Agent系统

1.3.1多Agent系统研究现状

1.3.2多Agent系统研究内容

1.4论文组织结构

第二章基本的数学模型和优化算法

2.1 Markov决策过程和半Markov决策过程

2.1.1 Markov决策过程

2.1.2半Markov决策过程

2.1.3多Agent半Markov决策过程

2.2 Q学习优化算法

2.2.1 Q学习原理

2.2.2基于性能势的Q学习算法

2.3 Option优化算法

2.3.1 Option算法原理

2.3.2 Option算法

2.4本章小结

第三章基于连续时间半马尔可夫决策过程的Option算法

3.1连续时间SMDP数学模型

3.2连续时间模拟退火统一Q学习

3.2.1模拟退火算法

3.2.2连续时间模拟退火统一Q学习优化算法

3.3连续时间Option算法

3.4实验仿真

3.4.1仿真模型

3.4.2 SA-Option算法模型建立

3.4.3 SA-Q算法模型建立

3.4.4实验结果

3.5本章小结

第四章多Agent系统连续时间Option算法

4.1 MSMDP数学模型描述

4.2多Agent连续时间Option学习优化算法

4.2.1连续时间CMSA-Option优化算法

4.2.2连续时间JMSA-Option优化算法

4.3实验仿真

4.3.1仿真模型

4.3.2 CMSA-Option算法模型建立

4.3.3 JMSA-Option算法模型建立

4.3.4实验结果

4.4本章小结

第五章总结

参考文献

攻读硕士学位期间主要科研工作和成果

展开▼

摘要

分层强化学习,如Option、MAXQ等,通过引入抽象机制来解决大规模系统的“维数灾”问题,并具有加速策略学习的功能。Option算法是运用比较广泛的一种分层强化学习算法,它通过引入宏,把任务按照一定的层次进行分解,并只在调用子任务时才进行决策。
   传统的Option算法基本上是建立在离散时间半马尔可夫决策过程和折扣准则基础上,不能很好的解决连续时间无穷任务问题。因此,论文根据Option算法的研究现状,考虑实际环境模型中的时间累积回报,以及在大规模系统中平均准则的优越性,重点研究折扣或平均准则的连续时间统一Option优化算法,用于解决连续时间单Agent或多Agent系统中无穷任务问题。
   论文首先以单Agent系统为研究背景,在连续时间半马尔可夫决策过程数学模型和性能势理论框架下,结合现有Option算法思想,给出一种适用于平均或折扣性能准则的连续时间单Agent统一Option分层强化学习模型和学习优化算法,用于解决连续时间无穷任务问题。另外,通过机器人垃圾收集系统为仿真实例,说明这种分层强化学习优化算法与连续时间模拟退火Q学习相比,具有节约存储空间、优化精度高和优化速度快的优势。
   其次,论文以多Agent系统为研究背景,在连续时间多Agent半马尔可夫数学模型和性能势理论下,结合上面构造的连续时间统一Option算法思想,给出一种在上层采用Agent之间进行宏行动交互,并适用于平均或折扣性能准则的多Agent连续时间统一Option分层强化学习模型和学习优化算法,用于解决连续时间多Agent无穷任务问题。另外,通过多Agent垃圾收集系统为仿真实例,说明这种分层强化学习优化算法与上层采用联合状态联合宏行动的多Agent连续时间Option算法相比,具有节约存储空间、优化精度高和优化速度快的优势。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号