连续时间分层强化学习算法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

分层强化学习，如Option、MAXQ等，通过引入抽象机制来解决大规模系统的“维数灾”问题，并具有加速策略学习的功能。Option算法是运用比较广泛的一种分层强化学习算法，它通过引入宏，把任务按照一定的层次进行分解，并只在调用子任务时才进行决策。
　　传统的Option算法基本上是建立在离散时间半马尔可夫决策过程和折扣准则基础上，不能很好的解决连续时间无穷任务问题。因此，论文根据Option算法的研究现状，考虑实际环境模型中的时间累积回报，以及在大规模系统中平均准则的优越性，重点研究折扣或平均准则的连续时间统一Option优化算法，用于解决连续时间单Agent或多Agent系统中无穷任务问题。
　　论文首先以单Agent系统为研究背景，在连续时间半马尔可夫决策过程数学模型和性能势理论框架下，结合现有Option算法思想，给出一种适用于平均或折扣性能准则的连续时间单Agent统一Option分层强化学习模型和学习优化算法，用于解决连续时间无穷任务问题。另外，通过机器人垃圾收集系统为仿真实例，说明这种分层强化学习优化算法与连续时间模拟退火Q学习相比，具有节约存储空间、优化精度高和优化速度快的优势。
　　其次，论文以多Agent系统为研究背景，在连续时间多Agent半马尔可夫数学模型和性能势理论下，结合上面构造的连续时间统一Option算法思想，给出一种在上层采用Agent之间进行宏行动交互，并适用于平均或折扣性能准则的多Agent连续时间统一Option分层强化学习模型和学习优化算法，用于解决连续时间多Agent无穷任务问题。另外，通过多Agent垃圾收集系统为仿真实例，说明这种分层强化学习优化算法与上层采用联合状态联合宏行动的多Agent连续时间Option算法相比，具有节约存储空间、优化精度高和优化速度快的优势。

著录项

作者
张晓艳;
展开▼
作者单位

合肥工业大学;

展开▼
授予单位合肥工业大学;
学科计算机应用技术
授予学位硕士
导师姓名唐昊;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
分层强化学习; Option算法; 连续时间; 马尔可夫决策; 数学模型; Agent系统;

相似文献

中文文献
外文文献
专利

1. 基于核密度估计的分层强化学习自动分层算法 [J] . 陆军 ,付成伟 . 自动化技术与应用 . 2008,第005期
2. 基于分层强化学习的联合作战仿真作战决策算法 [J] . 于博文 ,吕明 ,张捷 . 火力与指挥控制 . 2021,第010期
3. 基于分层和强化学习的改进路径搜索算法 [J] . 王海红 ,刘莉 . 计算机与现代化 . 2020,第011期
4. 基于蚂蚁优化算法的分层强化学习 [J] . 周晓柯 ,孙志毅 ,彭志平 . 计算机应用研究 . 2014,第011期
5. 基于模糊聚类的分层强化学习算法 [J] . 张欣 ,戴帅 . 计算机工程与科学 . 2010,第001期
6. 基于分层强化学习和偏爱逻辑的Web服务组合 [C] . 郭晓辉 ,王红兵 . 第一届全国服务计算学术会议 . 2010
7. 分层强化学习中自动分层算法的研究 [A] . 胡坤 . 2011

连续时间分层强化学习算法

目录

摘要

著录项

相似文献

相关主题

期刊订阅