首页> 中文期刊>中国公路学报 >基于强化学习DDPG的智能车辆轨迹跟踪控制

基于强化学习DDPG的智能车辆轨迹跟踪控制

     

摘要

针对智能车辆在轨迹跟踪过程中的横向控制问题,提出一种基于强化学习中深度确定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)的智能车辆轨迹跟踪控制方法。首先,将智能车辆的跟踪控制描述为一个基于马尔可夫决策过程(MDP)的强化学习过程,强化学习的主体是由Actor神经网络和Critic神经网络构成的Actor-Critic框架;强化学习的环境包括车辆模型、跟踪模型、道路模型和回报函数。其次,所提出方法的学习主体以DDPG方法更新,其中采用回忆缓冲区解决样本相关性的问题,复制结构相同的神经网络解决更新发散问题。最后,将所提出的方法在不同场景中进行训练验证,并与深度Q学习方法(Deep Q-Learning, DQN)和模型预测控制(Model Predictive Control, MPC)方法进行比较。研究结果表明:基于DDPG的强化学习方法所用学习时间短,轨迹跟踪控制过程中横向偏差和角偏差小,且能满足不同车速下的跟踪要求;采用DDPG和DQN强化学习方法在不同场景下均能达到训练片段的最大累计回报;在2种仿真场景中,基于DDPG的学习总时长分别为DQN的9.53%和44.19%,单个片段的学习时长仅为DQN的20.28%和22.09%;以DDPG、DQN和MPC控制方法进行控制时,在场景1中,基于DDPG方法的最大横向偏差分别为DQN和MPC的87.5%和50%,仿真时间分别为DQN和MPC的12.88%和53.45%;在场景2中,基于DDPG方法的最大横向偏差分别为DQN和MPC的75%和21.34%,仿真时间分别为DQN和MPC的20.64%和58.60%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号