首页> 外文会议>Conference on Uncertainty in Artificial Intelligence >Learning is planning: near Bayes-optimal reinforcement learning via Monte-Carlo tree search
【24h】

Learning is planning: near Bayes-optimal reinforcement learning via Monte-Carlo tree search

机译:学习是计划:靠近贝叶斯 - 通过Monte-Carlo树搜索靠近最佳钢筋

获取原文

摘要

Bayes-optimal behavior, while well-defined, is often difficult to achieve. Recent advances in the use of Monte-Carlo tree search (MCTS) have shown that it is possible to act near-optimally in Markov Decision Processes (MDPs) with very large or infinite state spaces. Bayes-optimal behavior in an unknown MDP is equivalent to optimal behavior in the known belief-space MDP, although the size of this belief-space MDP grows exponentially with the amount of history retained, and is potentially infinite. We show how an agent can use one particular MCTS algorithm, Forward Search Sparse Sampling (FSSS), in an efficient way to act nearly Bayes-optimally for all but a polynomial number of steps, assuming that FSSS can be used to act efficiently in any possible underlying MDP.
机译:贝叶斯 - 最佳行为,虽然明确,但往往难以实现。使用Monte-Carlo树搜索(MCT)的最新进展表明,可以在带有非常大或无限状态空间的马尔可夫决策过程(MDP)中接近最佳地采用。未知MDP中的贝叶斯 - 最佳行为相当于已知信仰空间MDP中的最佳行为,尽管该信仰空间MDP的大小以保留的历史数量呈指数级增长,并且可能是无限的。我们展示了代理商如何使用一个特定的MCT算法,以有效的方式使用一个特定的MCT算法,转发搜索稀疏采样(FSSS),以实现近似贝叶斯 - 除了可以使用FSS可以用来有效地起作用的所有步骤 - 除了多项式的步骤中可能的底层MDP。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号