首页> 中文会议>第九届中国智能机器人学术研讨会 >基于AMDP-Q的自主车辆行驶策略求解

基于AMDP-Q的自主车辆行驶策略求解

摘要

结合增广马尔可夫决策过程(AMDP),蒙特卡罗一部分可观察马尔可夫决策过程(MC—POMDP)以及Q学习,提出了AMDP—Q学习(AMDP—Q)算法。算法的主要思想是:首先用一个低维充分统计量表示原信念状态空间,通常使用最大似然状态和信念状态的信息熵作为充分统计量。其组成的空间称为增广状态空间;然后应用参考状态集离散化该空间,并利用Q学习和Shepard插值得到连续状态的转移函数和回报函数;最后使用具有知识探索性质的e-贪婪策略进行策略选择。实验结果表明:AMDP—Q比MC-POMDP收敛速度更快。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号