首页> 外文期刊>電子情報通信学会論文誌 >2人2行動対称ゲームのための学習率調整Q学習
【24h】

2人2行動対称ゲームのための学習率調整Q学習

机译:两人两动作对称游戏的学习率调整Q学习

获取原文
获取原文并翻译 | 示例
获取外文期刊封面目录资料

摘要

既存のマルチエージェントQ学習は,その多くがナッシュ均衡解を求めることを目的としているが,ナッシュ均衡解が好ましくない囚人のジレンマ(PD)のようなゲームが存在する.筆者はこれまでに,PDに適用するための効用利用Q学習を提案してきた.それは,偶然に相互協調が実現した場合にそれを続けさせるために,Q学習において報酬の代わりにエージェント内で生成した効用を用いるものである.ところで,ユージュントの行動はQ値の関係に依存するため,Q学習における学習率を調整することによっても相互協調を続けさせることが可能である.そこで本論文では,学習率を直接扱う学習率調整Q学習(LRA-Q)を提案する.更に,LRA-QがPDだけではなく,他の種類の2人2行動対称ゲームでも機能し得ることを示す.
机译:现有的大多数多主体Q学习旨在寻找纳什均衡解,但是有些游戏,例如囚徒困境(PD)则不希望纳什均衡解。到目前为止,作者已经提出将实用程序使用的Q学习应用于PD。它使用代理程序中生成的效用代替Q学习中的奖励,以便在偶然发生时继续相互合作。顺便说一下,由于Eujunt的作用取决于Q值的关系,因此可以通过调整Q学习中的学习速率来继续相互合作。因此,在本文中,我们提出了直接与学习率相关的学习率调整Q学习(LRA-Q)。此外,我们证明了LRA-Q不仅可以在PD中使用,而且可以在其他类型的2人2动作对称游戏中使用。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号