交互式POMDPs及其图模型

摘要

交互式部分可观测马尔可夫决策过程(I-POMDPs)是部分可观测马尔可夫决策过程(POMDP)在多Agent环境的扩展。模型的解是在对其它Agents行为的概率分布的预测下提供给该Agent的最优决策,因此能更有效地解决多Agents的决策问题。交互式动态影响图(I-DIDs)作为其图形表达方法,能够利用变量的条件独立性更加清楚直观地描述待解决的决策问题,更适用于计算机编程处理。首先探讨了I-POMDPs的研究进展,描述了其数学定义及其求解过程,并对其理论模型和代表性算法进行了综述;然后阐述了其图形表达的模型和算法,分析了既有算法的优点和存在的问题,讨论了模型难以求解的原因;最后结合目前的研究进展,初步提出了进一步的研究方向。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号