基于优化子目标数的Option-Critic算法

刘成浩; 朱斐; 刘全

首页> 中文期刊> 《计算机学报》 >基于优化子目标数的Option-Critic算法

基于优化子目标数的Option-Critic算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

时间抽象是分层强化学习中的重要研究方向,而子目标是时间抽象形成的核心元素.目前,大部分分层强化学习需要人工给出子目标或设定子目标数量.然而,在很多情况下,这不仅需要大量的人工干预,而且所作设定未必适合对应场景,在动态环境未知的指导下,这一问题尤为突出.针对此,提出基于优化子目标数的Option-Critic算法(Option-Critic algorithm based on Sub-goal Quantity Optimization,OC-SQO),增加了智能体对环境的探索部分,通过与环境的简单交互,得到适用于应用场景的初始子目标数量估值,并在此基础上识别子目标,然后利用通过策略梯度生成对应的抽象,使用初态、内部策略和终止函数构成的三元组表示,以此进行训练,根据交互得到的抽象改变当前状态,不断迭代优化.OC-SQO算法可以在任意状态下开始执行,不要求预先指定子目标和参数,在执行过程中使用策略梯度生成内部策略、抽象间策略和终止函数,不需要提供内部奖赏信号,也无需获取子目标的情况,尽可能地减少了人工干预.实验验证了算法的有效性.

著录项

来源
《计算机学报》 |2021年第9期|1922-1933|共12页
作者
刘成浩; 朱斐; 刘全;
展开▼
作者单位

苏州大学计算机科学与技术学院江苏苏州215006;

苏州大学计算机科学与技术学院江苏苏州215006;

苏州大学江苏省计算机信息处理技术重点实验室江苏苏州 215006;

苏州大学计算机科学与技术学院江苏苏州215006;

苏州大学江苏省计算机信息处理技术重点实验室江苏苏州 215006;

展开▼
原文格式 PDF
正文语种 chi
中图分类人工智能理论;
关键词
分层深度强化学习; 时间抽象; 子目标; 强化学习; Option;

相似文献

中文文献
外文文献
专利

1. 基于子目标进化算法的要地防空武器系统优化部署 [J] . 雷宇曜 ,姜文志 ,刘立佳 . 系统工程与电子技术 . 2016,第002期
2. 基于直觉模糊数与多目标优化算法的工艺路线优化 [J] . 安相华 ,陈涛 . 计算机集成制造系统 . 2019,第005期
3. 基于LMI优化的对偶四元数手眼标定算法 [J] . 王龙 ,闵华松 . 机床与液压 . 2021,第021期
4. 基于布谷鸟优化算法的二维FIR数滤字波器设计 [J] . 杨艳 ,陈燕 ,彭元堃 . 蚌埠学院学报 . 2020,第005期
5. 一种基于随机数扰动变异的果蝇优化算法 [J] . 张超 ,魏三强 ,罗颖 . 西华大学学报（自然科学版） . 2017,第005期
6. 基于时延和信号扇出数的时序优化装箱算法 [C] . 崔秀海 ,杨海钢 ,郝亚男 . 中国电子学会电路与系统学会第二十二届年会 . 2010
7. 不确定环境下基于动态子目标搜索的移动机器人路径规划算法研究 [A] . 江贵龙 . 2006

基于优化子目标数的Option-Critic算法

摘要

著录项

相似文献

相关主题

期刊订阅