一种最大置信上界经验采样的深度Q网络方法

朱斐; 吴文; 刘全; 伏玉琛

首页> 中文期刊> 《计算机研究与发展》 >一种最大置信上界经验采样的深度Q网络方法

一种最大置信上界经验采样的深度Q网络方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

由深度学习(deep learning,DL)和强化学习(reinforcement learning,RL)结合形成的深度强化学习(deep reinforcement learning,DRL)是目前人工智能领域的一个热点.深度强化学习在处理具有高维度输入的最优策略求解任务中取得了很大的突破.为了减少转移状态之间暂时的相关性,传统深度Q网络使用经验回放的采样机制,从缓存记忆中随机采样转移样本.然而,随机采样并不考虑缓存记忆中各个转移样本的优先级,导致网络训练过程中可能会过多地采用信息较低的样本,而忽略一些高信息量的样本,结果不但增加了训练时间,而且训练效果也不理想.针对此问题,在传统深度Q网络中引入优先级概念,提出基于最大置信上界的采样算法,通过奖赏、时间步、采样次数共同决定经验池中样本的优先级,提高未被选择的样本、更有信息价值的样本以及表现优秀的样本的被选概率,保证了所采样本的多样性,使智能体能更有效地选择动作.最后,在Atari 2600的多个游戏环境中进行仿真实验,验证了算法的有效性.

著录项

来源
《计算机研究与发展》 |2018年第8期|1694-1705|共12页
作者
朱斐; 吴文; 刘全; 伏玉琛;
展开▼
作者单位

苏州大学计算机科学与技术学院江苏苏州 215006;

江苏省计算机信息处理技术重点实验室(苏州大学) 江苏苏州 215006;

符号计算与知识工程教育部重点实验室(吉林大学) 长春130012;

苏州大学计算机科学与技术学院江苏苏州 215006;

苏州大学计算机科学与技术学院江苏苏州 215006;

符号计算与知识工程教育部重点实验室(吉林大学) 长春130012;

苏州大学计算机科学与技术学院江苏苏州 215006;

常熟理工学院计算机科学与工程学院江苏常熟 215500;

展开▼
原文格式 PDF
正文语种 chi
中图分类人工智能理论;
关键词
强化学习; 深度强化学习; 最大置信上界; 经验回放; 深度Q网络;

相似文献

中文文献
外文文献
专利

1. 一种快速收敛的最大置信上界探索方法 [J] . 敖天宇 ,刘全 . 计算机科学 . 2022,第1期
2. 一种基于深度置信网络的通信辐射源个体识别方法 [J] . 刘高辉 ,张晓博 . 电波科学学报 . 2020,第003期
3. LVCSR 系统中一种基于区分性和自适应瓶颈深度置信网络的特征提取方法 [J] . 陈雷 ,杨俊安 ,王一 . 信号处理 . 2015,第003期
4. 一种数值属性的深度置信网络分类方法 [J] . 孙劲光 ,蒋金叶 ,孟祥福 . 计算机工程与应用 . 2014,第002期
5. 一种容量上界最大化的量化反馈方法 [J] . 解芳 ,袁超伟 ,程铁铮 . 西安电子科技大学学报（自然科学版） . 2010,第003期
6. 面向异构平台的深度置信网络并行优化方法 [C] . TANG Ge-Xuan ,唐舸轩 ,ZHOU Yi-Hua . 2016年全国高性能计算学术年会 . 2016
7. 改进深度置信网络的齿轮箱故障识别方法研究 [A] . 张智禹 . 2020

一种最大置信上界经验采样的深度Q网络方法

摘要

著录项

相似文献

相关主题

期刊订阅