多步积累奖励的双重时序Q网络算法

朱威; 谯先锋; 陈艺楷; 何德峰

首页> 中文期刊>控制理论与应用 >多步积累奖励的双重时序Q网络算法

多步积累奖励的双重时序Q网络算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

车辆行驶控制决策是无人驾驶的核心技术,现有基于深度强化学习的无人驾驶控制决策算法存在处理数据效率低、无法有效提取状态间时序特征等问题.因此本文提出了一种基于多步积累奖励的双重时序Q网络算法.首先,设计了一种多步积累奖励方法,该方法对未来多步即时奖励的累加和进行均值化,与当前即时奖励共同作用于智能体的控制策略,并在奖励函数中突出当前即时奖励的主导影响.接着设计了一种长短期记忆网络和卷积神经网络相结合的时序网络结构,增强智能体对数据间时序特征的捕获能力.实验结果验证了时序网络和多步积累奖励方法有助于提升智能体收敛速度,其中DQN, DDQN使用时序网络后,收敛速度分别提升了21.9%, 26.8%;本文算法在Carla仿真平台典型的Town01, Town02场景中的控制得分比DDQN, TD3算法分别高了36.1%, 24.6%,以及在复杂的Town03场景中针对不同线路表现出了更好的泛化性能.这些结果都表明本文算法能够有效的提升数据利用效率,并具备良好的控制能力和泛化能力.

著录项

来源
《控制理论与应用》|2022年第2期|222-230|共9页
作者
朱威; 谯先锋; 陈艺楷; 何德峰;
展开▼
作者单位

浙江工业大学信息工程学院;

展开▼
原文格式 PDF
正文语种 chi
中图分类计算技术、计算机技术;
关键词
深度强化学习; 无人车; 多步积累奖励; 时序网络; 数据利用率;
入库时间 2022-09-15 21:30:01

相似文献

中文文献
外文文献
专利

1. 软件失效时序数据的灰色拟合及多步预测算法 [J] . 黄雄波 . 智能计算机与应用 . 2017,第006期
2. 软件失效时序数据的灰色拟合及多步预测算法 [J] . 黄雄波 . 智能计算机与应用 . 2017,第006期
3. 基于递推最小二乘法的多步时序差分学习算法 [J] . 陈学松 ,杨宜民 . 计算机工程与应用 . 2010,第008期
4. 基于神经网络多步时序预测的非线性系统故障诊断 [J] . 赵翔 ,萧德云 . 控制理论与应用 . 2000,第006期
5. 超密集物联网络中多任务多步计算卸载算法研究 [J] . 周天清 ,岳亚莉 . 计算机科学 . 2022,第6期
6. 基于神经网络的多步预测控制算法及其在pH值控制中的应用 [C] . 贾平 ,麻红昭 ,俞蒙 . 第十届过程控制科学报告会 . 1999
7. 考虑时序关键路径的布线后双重图案光刻层分配算法研究 [A] . 孙剑 . 2012

多步积累奖励的双重时序Q网络算法

摘要

著录项

相似文献

相关主题

期刊订阅