首页> 外文期刊>Performance evaluation review >Learning Optimal Policies in Markov Decision Processes with Value Function Discovery
【24h】

Learning Optimal Policies in Markov Decision Processes with Value Function Discovery

机译:通过价值函数发现学习马尔可夫决策过程中的最优策略

获取原文
获取原文并翻译 | 示例
           

摘要

In this paper we describe recent progress in our work on Value Function Discovery (vfd), a novel method for discovery of value functions for Markov Decision Processes (mdps). In a previous paper we described how vfd discovers algebraic descriptions of value functions (and the corresponding policies) using ideas from the Evolutionary Algorithm field. A special feature of vfd is that the descriptions include the model parameters of the mdp. We extend that work and show how additional information about the structure of the mdp can be included in vfd. This alternative use of vfd still yields near-optimal policies, and is much faster. Besides increased performance and improved run times, this approach illustrates that vfd is not restricted to learning value functions and can be applied more generally.
机译:在本文中,我们描述了价值函数发现(vfd)工作的最新进展,这是一种用于发现马尔可夫决策过程(mdps)的价值函数的新方法。在上一篇文章中,我们描述了vfd如何使用“进化算法”领域的思想发现价值函数(以及相应的策略)的代数描述。 vfd的一个特殊功能是描述包含mdp的模型参数。我们将扩展这项工作,并说明如何在vfd中包含有关mdp结构的其他信息。 vfd的这种替代用法仍可产生接近最佳的策略,并且速度更快。除了提高性能和缩短运行时间外,该方法还说明vfd不仅限于学习价值函数,而且可以更广泛地应用。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号