首页> 外文会议>知能システムシンポジウム >パレート報酬を考慮した政策群アーカイブに基づくマルチエージェント強化学習
【24h】

パレート報酬を考慮した政策群アーカイブに基づくマルチエージェント強化学習

机译:基于Parietic奖励的政策组归档的多功能钢筋学习

获取原文

摘要

多数の強化学習エージェントを有する学習環境の利用に際しては,エージェントの数に応じて多数の報酬を設定することによる報酬の組の増大が考えられる.多数の報酬を設定することは多彩なタスク割り当てを考慮した上で学習結果が得られる利点がある反面,報酬の組の増大によって最適でない政策を獲得する可能性が増大し,さらには最適な政策が単一にならない可能性が高まる.また,いくつかの報酬の組がエージェントの行動を誘引することが局所的な政策を獲得する要因となる.そういった理由から,従来の強化学習のフレームワークのように試行錯誤により一つの価値関数(例えば,Qテーブル)を更新することで「一つ」の政策を獲得する方法では有効な学習結果を得ることが困難である.この問題を解決するために,学習途中で見つけた有望な政策を「複数」記憶して,それを学習中に利用することによって局所的な政策の獲得を避け,大局的な最適政策を獲得するエージェントの構築を行うことを目的とする.有望な政策としてはパレート報酬をもたらす政策を扱い,非パレート最適な政策の獲得を抑制し,同時に複数のパレート最適な政策を獲得できることを検証する.具体的には,多数の報酬の組み合わせのあるマルチステップ4タスク問題という例題に適用し,提案エージェントの有効性を検証する.
机译:为了使用一个学习环境,有大量增强学习剂,一组补偿组可以通过设置根据代理商的数量大量回报的考虑。设置了大量的奖励是获得各种任务分配的优势,同时获得学习结果,获得的政策是不是最优的,由于增加了对补偿的可能性,最好的策略是更有可能是独一无二的。此外,一些奖励集将导致本地政策吸引代理人的行为。由于这些原因,有可能通过由更新一个值的功能(例如,Q表),更新一个值的功能(例如,Q表),以获得有效的学习的结果,如以往的强化学习框架是困难的。为了解决这个问题,“多”支付政策的学习,并通过学习期间使用它避免了收购地方政策的中间发现,掌握全局最优的政策,旨在建立一个代理。作为一个有前途的政策,我们处理带帕累托奖励的政策并抑制非帕累托最佳政策收购,并验证可以同时获得多个顶视最佳政策。具体地,它适用于具有大量补偿组合的多步骤4任务问题的示例,并验证所提出的代理的有效性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号