【24h】

The Size of MDP Factored Policies

机译:MDP因素政策的规模

获取原文

摘要

Policies of Markov Decision Processes (MDPs) tell the next action to execute, given the current state and (possibly) the history of actions executed so far. Factorization is used when the number of states is exponentially large: both the MDP and the policy can be then represented using a compact form, for example employing circuits. We prove that there are MDPs whose optimal policies require exponential space even in factored form.
机译:Markov决策过程(MDPS)的策略告诉下一个执行的操作,给定当前状态和(可能)到目前为止执行的操作历史。当状态的数量是指数大的时,使用分解:然后可以使用紧凑的形式表示MDP和策略,例如采用电路。我们证明有MDP,其最佳政策即使是因子形式也需要指数空间。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号