基于情节经验回放的深度确定性策略梯度方法

张建行; 刘全

首页> 中文期刊>计算机科学 >基于情节经验回放的深度确定性策略梯度方法

基于情节经验回放的深度确定性策略梯度方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

强化学习中的连续控制问题一直是近年来的研究热点.深度确定性策略梯度(Deep Deterministic Policy Gradients,DDPG)算法在连续控制任务中表现优异.DDPG算法利用经验回放机制训练网络模型,为了进一步提高经验回放机制在DDPG算法中的效率,将情节累积回报作为样本分类依据,提出一种基于情节经验回放的深度确定性策略梯度(Deep Determinis-tic Policy Gradient with Episode Experience Replay,EER-DDPG)方法.首先,将经验样本以情节为单位进行存储,根据情节累积回报大小使用两个经验缓冲池分类存储.然后,在网络模型训练阶段着重对累积回报较大的样本进行采样,以提升训练质量.在连续控制任务中对该方法进行实验验证,并与采取随机采样的DDPG方法、置信区域策略优化(Trust Region Policy Op-timization,TRPO)方法以及近端策略优化(Proximal Policy Optimization,PPO)方法进行比较.实验结果表明,EER-DDPG方法有更好的性能表现.

著录项

来源
《计算机科学》|2021年第10期|37-43|共7页
作者
张建行; 刘全;
展开▼
作者单位

苏州大学计算机科学与技术学院江苏苏州215006;

苏州大学计算机科学与技术学院江苏苏州215006;

苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006;

吉林大学符号计算与知识工程教育部重点实验室长春 130012;

软件新技术与产业化协同创新中心南京210000;

展开▼
原文格式 PDF
正文语种 chi
中图分类自动推理、机器学习;
关键词
深度确定性策略梯度; 连续控制任务; 经验回放; 累积回报; 分类经验回放;
入库时间 2022-08-20 08:47:21

相似文献

中文文献
外文文献
专利

1. 采用双经验回放池的噪声流双延迟深度确定性策略梯度算法 [J] . 王垚儒 ,李俊 . 武汉科技大学学报（自然科学版） . 2020,第002期
2. 基于深度确定性策略梯度的随机路由防御方法 [J] . 徐潇雨 ,胡浩 ,张红旗 . 通信学报 . 2021,第006期
3. 基于深度确定性策略梯度算法的战机规避中距空空导弹研究 [J] . 宋宏川 ,詹浩 ,夏露 . 航空工程进展 . 2021,第003期
4. 基于深度确定性策略梯度的粒子群算法 [J] . 鲁华祥 ,尹世远 ,龚国良 . 电子科技大学学报 . 2021,第002期
5. 基于深度确定性策略梯度的虚拟网络功能迁移优化算法 [J] . 唐伦 ,贺兰钦 ,谭颀 . 电子与信息学报 . 2021,第002期
6. 基于聚焦梯度的深度计算方法 [C] . 刘辉 . 中国图象图形学学会第七届全国图象图形学学术会议 . 1994
7. 基于熵正则化和定期更新的深度确定性策略梯度 [A] . 韩帅 . 2021

基于情节经验回放的深度确定性策略梯度方法

摘要

著录项

相似文献

相关主题

期刊订阅