首页> 中文期刊> 《计算机研究与发展》 >一种最大置信上界经验采样的深度Q网络方法

一种最大置信上界经验采样的深度Q网络方法

         

摘要

由深度学习(deep learning,DL)和强化学习(reinforcement learning,RL)结合形成的深度强化学习(deep reinforcement learning,DRL)是目前人工智能领域的一个热点.深度强化学习在处理具有高维度输入的最优策略求解任务中取得了很大的突破.为了减少转移状态之间暂时的相关性,传统深度Q网络使用经验回放的采样机制,从缓存记忆中随机采样转移样本.然而,随机采样并不考虑缓存记忆中各个转移样本的优先级,导致网络训练过程中可能会过多地采用信息较低的样本,而忽略一些高信息量的样本,结果不但增加了训练时间,而且训练效果也不理想.针对此问题,在传统深度Q网络中引入优先级概念,提出基于最大置信上界的采样算法,通过奖赏、时间步、采样次数共同决定经验池中样本的优先级,提高未被选择的样本、更有信息价值的样本以及表现优秀的样本的被选概率,保证了所采样本的多样性,使智能体能更有效地选择动作.最后,在Atari 2600的多个游戏环境中进行仿真实验,验证了算法的有效性.

著录项

  • 来源
    《计算机研究与发展》 |2018年第8期|1694-1705|共12页
  • 作者

    朱斐; 吴文; 刘全; 伏玉琛;

  • 作者单位

    苏州大学计算机科学与技术学院 江苏苏州 215006;

    江苏省计算机信息处理技术重点实验室(苏州大学) 江苏苏州 215006;

    符号计算与知识工程教育部重点实验室(吉林大学) 长春130012;

    苏州大学计算机科学与技术学院 江苏苏州 215006;

    苏州大学计算机科学与技术学院 江苏苏州 215006;

    符号计算与知识工程教育部重点实验室(吉林大学) 长春130012;

    苏州大学计算机科学与技术学院 江苏苏州 215006;

    常熟理工学院计算机科学与工程学院 江苏常熟 215500;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 人工智能理论;
  • 关键词

    强化学习; 深度强化学习; 最大置信上界; 经验回放; 深度Q网络;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号