首页> 中文期刊> 《南京信息工程大学学报:自然科学版》 >基于权重值的竞争深度双Q网络算法

基于权重值的竞争深度双Q网络算法

         

摘要

在深度强化学习中,深度Q网络算法存在严重高估动作值问题,使得智能体的表现不尽人意.尽管深度双Q网络和竞争网络结构可以部分缓解高估带来的影响,但引入双Q网络的同时,有时也会低估动作值.本文提出了一种基于权重值的竞争深度双Q网络算法(Weighted Dueling Double Deep Q-Network,WD3QN),把改进的双估计器及竞争网络结构结合至深度Q网络中,将学习到的可能动作值进行加权产生最终动作值,有效减少估计误差.最后,将算法应用于Open AI Gym平台上的CartPole经典控制问题,仿真结果显示:与已有算法对比,本算法有更好的学习效果,收敛性和训练速度均有提升.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号