首页> 中文学位 >基于强化学习的驾驶员车辆路径选择过程研究
【6h】

基于强化学习的驾驶员车辆路径选择过程研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.2.1 国外研究现状

1.2.2 国内研究现状

1.3 相关理论研究

1.3.1 博弈论

1.3.2 强化学习理论

1.3.3 信念学习理论

1.4 本文主要研究内容

1.5 本章小结

第二章 基于强化学习理论的交通诱导模型研究

2.1 基于强化学习理论的交通诱导模型建立

2.1.1 模型基本假设

2.1.2 模型的建立

2.2 交通诱导模型的博弈过程

2.3 基于不同条件的交通诱导模型对比分析

2.3.1 基于无诱导信息条件下驾驶员路径选择过程研究

2.3.2 基于强化学习理论条件下驾驶员路径选择过程研究

2.3.2 基于信念学习理论条件下驾驶员路径选择过程研究

2.3.4 三种条件下驾驶员路径选择过程对比分析

2.4 本章小结

第三章 基于强化学习模型的驾驶员车辆路径选择仿真分析

3.1 路网流量变化时驾驶员车辆路径选择仿真分析

3.2 初始路网分配比例变化时驾驶员车辆路径选择仿真分析

3.3 本章小结

第四章 强化学习模型参数变化对驾驶员车辆路径选择影响分析

4.1 期望支付调整速度变化研究

4.2 初始概率参数变化研究

4.3 本章小结

第五章 总结与展望

5.1 主要结论

5.2 研究展望

致谢

参考文献

附录

攻读学位期间取得的研究成果

展开▼

摘要

近年来智能交通被广泛应用于解决交通拥堵问题,但是发布的诱导信息是否有效、是否会产生交通震荡,取决驾驶员对诱导信息的反应。驾驶员在面临诱导信息进行路径选择时,可以选择接受诱导信息,也可以选择拒绝接受诱导信息,这是一个博弈的过程,又因对驾驶员路径选择影响最大的因素是上一次策略选择收益,收益较好时,策略被强化,否则被弱化,这符合强化学习理论的思想,且驾驶员会存在预期收益,策略概率选择大小取决于预期收益与实际收益的差值,另外,现实中驾驶员对其他驾驶员的策略选择信念无法取得,因此本文在博弈论的基础上,应用强化学习理论思想,以驾驶员预期收益与实际收益的差值更新策略的概率,研究驾驶员在面临诱导信息时的路径选择过程,旨在为交通管理者发布诱导信息提供依据。
  本文首先研究基于强化学习理论的驾驶员路径策略选择过程。建立了基于强化学习理论的交通诱导模型,详细论述了模型的博弈过程,并通过仿真基于无诱导信息条件下、基于强化学习诱导信息条件下、基于信念学习诱导信息条件下驾驶员路径选择过程,验证诱导信息发布的有效性。
  然后基于建立的强化学习理论交通诱导模型,进一步研究了路网环境变化时对驾驶员路径策略选择过程产生的影响。主要通过改变路网流量、初始接受诱导比例两个因素,分析其对驾驶员路径选择过程产生的影响,当路网流量变化时,管理者应将诱导信息的可信度提高至50%~60%,可以使诱导信息被充分利用,且不会导致拥堵漂移,能够有效缓解交通拥堵;当改变初始接受诱导比例时,当路网流量占通行能力的85%及以上时发布诱导信息,即当路网开始拥堵时,诱导信息能快速发挥作用,缓解道路上交通拥堵,提高道路通行能力。
  最后研究了强化学习理论交通诱导模型自身参数变化对驾驶员车辆路径选择过程产生的影响。主要研究了期望支付调整速度、初始接受概率两个参数变化时,对驾驶员路径选择过程产生的影响。当期望支付调整速度改变时,期望支付调整速度取值较小时,模型的使用效果更好,诱导效果更加明显,道路通行能力能够得到快速提升;当初始接受比例改变时,局中人对各个策略的初始接受概率相等时模型的诱导效果相较于对某一个策略有喜好时较差,即驾驶员对某一策略有偏好时,模型的使用效果更好,也符合现实生活驾驶员不是一层不变的,而是会分成各种类型。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号