...
首页> 外文期刊>電子情報通信学会論文誌 >状態の複数の抽象化による方策こう配法の高速化: トンネル状の障害物が存在する追跡問題への適用
【24h】

状態の複数の抽象化による方策こう配法の高速化: トンネル状の障害物が存在する追跡問題への適用

机译:加速具有多个状态抽象的策略梯度:在跟踪具有隧道状障碍物的问题中的应用

获取原文
获取原文并翻译 | 示例

摘要

マルチエージェントシステムにおける強化学習にはエージェント数の増加に伴い状態数が著しく増加する問題があり,現実的な計算資源の範囲内で学習を行うには環境の状態表現を工夫する必要がある.本論文では,複数の抽象化された状態表現に基づく状態・行動ルールを統合することにより,方策こう配法による強化学習の高速化を図った.この統合は方策中の目的関数を各抽象化空間内でのルール重みの和で定義することにより容易に実現できる.提案手法の有効性を検証するために,自律分散的なマルチエージェント環境の標準的な問題として知られている追跡問題への適用を試みた.本論文で取り上げた追跡問題にはトンネル状の静止障害物が加えられている.したがって,トンネル内で獲物を捕獲するには獲物をトンネル内へ追い込んだ後,複数ハンターが両側から挟撃するという協調行動の学習が必要となる.このような難しい間敷こ対しても本手法により学習速度が向上し,捕獲までのステップ数が短縮されることをシミュレーション実験で示した.
机译:在多智能体系统中的强化学习存在以下问题:随着智能体的数量增加,状态的数量显着增加,并且有必要设计环境的状态表示以便在现实的计算资源的范围内进行学习。在本文中,我们尝试通过基于多个抽象状态表达式的状态和动作规则相集成的策略梯度方法来加速强化学习。为了验证所提出方法的有效性,我们将其应用于在分布式分布式多主体环境中称为标准问题的跟踪问题。本文讨论的跟踪问题增加了一个隧道状的固定障碍物,因此,为了捕获隧道中的猎物,将猎物驱赶入隧道后,两侧会夹住多个猎人。仿真实验表明,即使存在如此困难的差距,该方法也可以提高学习速度并缩短捕获步骤。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号