部分观测马尔科夫决策过程的时空联想记忆网络模型

摘要

状态空间和策略空间上的计算复杂性使得求解部分观测马尔科夫决策过程(POMDP)的最优策略问题具有NP难度。为此,本文借鉴生物神经元的特性提出一种时空联想记忆网络(STAMN)模型作为POMDP的计算模型。首先,STAMN利用活性衰减、突触势能以及节点间的同步激活机制来实现k步短期记忆,进而实现状态定位。其次,利用状态节点与行动节点之间的权值来表示状态-行动值函数,并利用其同步更新简化了系统的决策空间。然后利用权值的衰减来模拟长期记忆的衰退过程,适应动态环境的建模。最后利用STAMN实现了环境的空间认知,实验结果验证了该网络可以有效解决循环环境的同时定位与标图(SLAM)问题。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号