【24h】

Answer set programming for non-stationary Markov decision processes

机译:回答设置非静止马尔可夫决策过程的编程

获取原文
获取原文并翻译 | 示例
获取外文期刊封面目录资料

摘要

Non-stationary domains, where unforeseen changes happen, present a challenge for agents to find an optimal policy for a sequential decision making problem. This work investigates a solution to this problem that combines Markov Decision Processes (MDP) and Reinforcement Learning (RL) with Answer Set Programming (ASP) in a method we call ASP(RL). In this method, Answer Set Programming is used to find the possible trajectories of an MDP, from where Reinforcement Learning is applied to learn the optimal policy of the problem. Results show that ASP(RL) is capable of efficiently finding the optimal solution of an MDP representing non-stationary domains.
机译:非静止域名,在不可预见的变化发生的情况下,对于代理人来说,为序贯决策问题找到最佳政策的挑战。 这项工作调查了在我们调用ASP(RL)的方法中将Markov决策过程(MDP)和强化学习(RL)与答案设置编程(ASP)结合起来的解决方案。 在该方法中,回答集编程用于找到MDP的可能轨迹,从应用增强学习来学习问题的最佳政策。 结果表明,ASP(RL)能够有效地找到代表非静止结构域的MDP的最佳解决方案。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号