首页> 中文期刊>控制理论与应用 >多步积累奖励的双重时序Q网络算法

多步积累奖励的双重时序Q网络算法

     

摘要

车辆行驶控制决策是无人驾驶的核心技术,现有基于深度强化学习的无人驾驶控制决策算法存在处理数据效率低、无法有效提取状态间时序特征等问题.因此本文提出了一种基于多步积累奖励的双重时序Q网络算法.首先,设计了一种多步积累奖励方法,该方法对未来多步即时奖励的累加和进行均值化,与当前即时奖励共同作用于智能体的控制策略,并在奖励函数中突出当前即时奖励的主导影响.接着设计了一种长短期记忆网络和卷积神经网络相结合的时序网络结构,增强智能体对数据间时序特征的捕获能力.实验结果验证了时序网络和多步积累奖励方法有助于提升智能体收敛速度,其中DQN, DDQN使用时序网络后,收敛速度分别提升了21.9%, 26.8%;本文算法在Carla仿真平台典型的Town01, Town02场景中的控制得分比DDQN, TD3算法分别高了36.1%, 24.6%,以及在复杂的Town03场景中针对不同线路表现出了更好的泛化性能.这些结果都表明本文算法能够有效的提升数据利用效率,并具备良好的控制能力和泛化能力.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号