首页> 中文期刊> 《集成技术》 >融合类人驾驶行为的无人驾驶深度强化学习方法

融合类人驾驶行为的无人驾驶深度强化学习方法

         

摘要

现有无人车辆的驾驶策略过于依赖感知-控制映射过程的“正确性”,而忽视了人类驾驶汽车时所遵循的驾驶逻辑.该研究基于深度确定性策略梯度算法,提出了一种具备类人驾驶行为的端到端无人驾驶控制策略.通过施加规则约束对智能体连续行为的影响,建立了能够输出符合类人驾驶连续有序行为的类人驾驶端到端控制网络,对策略输出采用了后验反馈方式,降低了控制策略的危险行为输出率.针对训练过程中出现的稀疏灾难性事件,提出了一种更符合控制策略优化期望的连续奖励函数,提高了算法训练的稳定性.不同仿真环境下的实验结果表明,改进后的奖励塑造方式在评价稀疏灾难性事件时,对目标函数优化期望的近似程度提高了85.57%,训练效率比传统深度确定性策略梯度算法提高了21%,任务成功率提高了19%,任务执行效率提高了15.45%,验证了该方法在控制效率和平顺性方面具备明显优势,显著减少了碰撞事故.

著录项

  • 来源
    《集成技术》 |2020年第5期|34-47|共14页
  • 作者单位

    中国科学院深圳先进技术研究院 深圳518055;

    深圳市电动汽车动力平台与安全技术重点实验室 深圳518055;

    哈尔滨理工大学 哈尔滨 150000;

    中国科学院深圳先进技术研究院 深圳518055;

    深圳市电动汽车动力平台与安全技术重点实验室 深圳518055;

    中国科学院深圳先进技术研究院 深圳518055;

    深圳市电动汽车动力平台与安全技术重点实验室 深圳518055;

    中国科学院深圳先进技术研究院 深圳518055;

    深圳市电动汽车动力平台与安全技术重点实验室 深圳518055;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 TG181;
  • 关键词

    深度强化学习; 端到端控制; 无人驾驶; 类人驾驶; 奖励塑造;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号