基于随机加权三重Q学习的异策略最大熵强化学习算法

范静宇; 刘全

首页> 中文期刊>计算机科学 >基于随机加权三重Q学习的异策略最大熵强化学习算法

基于随机加权三重Q学习的异策略最大熵强化学习算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

强化学习是机器学习中一个重要的分支,随着深度学习的发展,深度强化学习逐渐发展为强化学习研究的重点。因应用广泛且实用性较强,面向连续控制问题的无模型异策略深度强化学习算法备受关注。同基于离散动作的Q学习一样,类行动者-评论家算法会受到动作值高估问题的影响。在类行动者-评论家算法的学习过程中,剪切双Q学习可以在一定程度上解决动作值高估的问题,但同时也引入了一定程度的低估问题。为了进一步解决类行动者-评论家算法中的高低估问题,提出了一种新的随机加权三重Q学习方法。该方法可以更好地解决类行动者-评论家算法中的高低估问题。此外,将这种新的方法与软行动者-评论家算法结合,提出了一种新的基于随机加权三重Q学习的软行动者-评论家算法,该算法在限制Q估计值在真实Q值附近的同时,通过随机加权方法增加Q估计值的随机性,从而有效解决了学习过程中对动作值的高低估问题。实验结果表明,相比SAC算法、DDPG算法、PPO算法与TD3算法等深度强化学习算法,SAC-RWTQ算法可以在gym仿真平台中的多个Mujoco任务上获得更好的表现。

著录项

来源
《计算机科学》|2022年第6期|335-341|共7页
作者
范静宇; 刘全;
展开▼
作者单位

苏州大学计算机科学与技术学院;

苏州大学江苏省计算机信息处理技术重点实验室;

吉林大学符号计算与知识工程教育部重点实验室;

软件新技术与产业化协同创新中心;

展开▼
原文格式 PDF
正文语种 chi
中图分类自动推理、机器学习;
关键词
Q学习; 深度学习; 异策略强化学习; 连续动作空间; 最大熵; 软行动者—评论家算法;
入库时间 2022-09-15 21:53:24

相似文献

中文文献
外文文献
专利

1. 基于强化学习的快速探索随机树特殊环境中路径重规划算法 [J] . 邹启杰 ,刘世慧 ,张跃 . 控制理论与应用 . 2020,第008期
2. 基于强化学习算法的供应链自适应随机库存控制研究 [J] . 宋晓鹏 ,张纪会 ,张超群 . 青岛大学学报（工程技术版） . 2012,第004期
3. 基于加权倾斜决策树的电力系统深度强化学习控制策略提取 [J] . 戴宇欣 ,陈琪美 ,高天露 . 电力信息与通信技术 . 2021,第011期
4. 基于强化学习的随机振动主动控制策略 [J] . 周嘉明 ,董龙雷 ,孟超 . 振动与冲击 . 2021,第016期
5. 基于深度强化学习与自学习的多无人机近距空战机动策略生成算法 [J] . 孔维仁 ,周德云 ,赵艺阳 . 控制理论与应用 . 2022,第2期
6. 基于遗传算法和强化学习的贝叶斯网络结构学习算法 [C] . 周本达 ,田旭 . 第四届中国软件工程大会 . 2007
7. 基于确定性异策略的Actor-Critic强化学习算法研究 [A] . 祁文凯 . 2021

基于随机加权三重Q学习的异策略最大熵强化学习算法

摘要

著录项

相似文献

相关主题

期刊订阅