【24h】

Approximate Policy Iteration with a Policy Language Bias

机译:具有策略语言偏差的近似策略迭代

获取原文
获取原文并翻译 | 示例

摘要

We explore approximate policy iteration, replacing the usual cost-function learning step with a learning step in policy space. We give policy-language biases that enable solution of very large relational Markov decision processes (MDPs) that no previous technique can solve. In particular, we induce high-quality domain-specific planners for classical planning domains (both deterministic and stochastic variants) by solving such domains as extremely large MDPs.
机译:我们探索近似的策略迭代,用策略空间中的学习步骤代替通常的成本函数学习步骤。我们给出了政策语言上的偏见,使人们能够解决以前的技术无法解决的非常大的关系马尔可夫决策过程(MDP)。特别是,我们通过解决诸如超大型MDP之类的领域,为经典规划领域(确定性和随机变体)引入了针对特定领域的高质量规划者。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号