基于优先级经验回放的SAC强化学习算法

刘庆强; 刘鹏云

首页> 中文期刊>吉林大学学报（信息科学版） >基于优先级经验回放的SAC强化学习算法

基于优先级经验回放的SAC强化学习算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

针对SAC(Soft Actor Critic)算法中所有样本都以等概率随机采样,造成训练速度慢,训练过程不稳定的缺点,提出了PER(Prioritized Experience Replay)-SAC算法.通过将优先级经验采样引入SAC算法,使网络优先训练值估计函数误差较大和策略表现不好的样本,从而提高了Agent训练过程的稳定性与收敛速度.实验结果表明,在多个环境及优化算法下,PER-SAC算法在训练速度及稳定性上相比于SAC算法均有明显提升.

著录项

来源
《吉林大学学报（信息科学版）》|2021年第2期|192-199|共8页
作者
刘庆强; 刘鹏云;
展开▼
作者单位

东北石油大学电气信息工程学院黑龙江大庆163318;

东北石油大学电气信息工程学院黑龙江大庆163318;

展开▼
原文格式 PDF
正文语种 chi
中图分类自动控制、自动控制系统;
关键词
深度强化学习; Actor-Critic方法; 最大熵; 优先级经验采样;
入库时间 2023-07-25 20:53:47

相似文献

中文文献
外文文献
专利

1. 基于SAC的多智能体深度强化学习算法 [J] . 肖硕 ,黄珍珍 ,张国鹏 . 电子学报 . 2021,第009期
2. 基于深度强化学习SAC算法的投资组合管理 [J] . 傅丰 ,王康 . 现代计算机（专业版） . 2020,第009期
3. 基于出租车司机经验的约束深度强化学习算法路径挖掘 [J] . 黄敏 ,毛锋 ,钱宇翔 . 计算机应用研究 . 2020,第005期
4. 基于优先经验回放的多智能体协同算法 [J] . 黄子蓉 ,甯彦淞 ,王莉 . 太原理工大学学报 . 2021,第005期
5. 基于后验经验回放的MADDPG算法 [J] . 孙彧 ,徐越 ,潘宣宏 . 指挥信息系统与技术 . 2021,第6期
6. 基于遗传算法和强化学习的贝叶斯网络结构学习算法 [C] . 周本达 ,田旭 . 第四届中国软件工程大会 . 2007
7. 多智能体深度强化学习的经验回放方法研究 [A] . 王艺深 . 2020

基于优先级经验回放的SAC强化学习算法

摘要

著录项

相似文献

相关主题

期刊订阅