【24h】

Learning Multi-agent Search Strategies

机译:学习多功能搜索策略

获取原文

摘要

We identify a specialised class of reinforcement learning problem in which the agent(s) have the goal of gathering information (identifying the hidden state). The gathered information can affect rewards but not optimal behaviour. Exploiting this characteristic, an algorithm is developed for evaluating an agent's policy against all possible hidden state histories at the same time. Experimental results show the method is effective in a two-dimensional multi-pursuer evader searching task. A comparison is made between identical policies, joint policies and "relational" policies that exploit relativistic information about the pursuers' positions.
机译:我们确定了一个专门的加强学习问题,其中代理人具有收集信息的目标(识别隐藏状态)。收集的信息可以影响奖励但不是最佳行为。利用这种特性,开发了一种算法,用于同时对所有可能的隐藏状态历史评估代理人的策略。实验结果表明,该方法在二维多追求避难者搜索任务中是有效的。在相同的政策,联合政策和“关系”政策之间进行了比较,这些政策利用了关于追求者职位的相对论信息。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号