首页> 外文期刊>電子情報通信学会技術研究報告 >協調行動学習における非定常性の重要性
【24h】

協調行動学習における非定常性の重要性

机译:非平稳性在协作行为学习中的重要性

获取原文
获取原文并翻译 | 示例
       

摘要

To understand how cooperative behaviors emerge is important in the field of multi-agent system research. Although this emergence mechanism has been mainly discussed in the context of evolution dynamics, it is known that cooperative behaviors also appear in a short time course of individuals. Discussion of emergence mechanisms in terms of individual learning such as reinforcement learning is not sufficient. In this study, we point out the significance of incorporating non-stationarity of the target environment into reinforcement learning of adaptive behaviors, by using one of the simplest multi-agent systems, i.e., a prisoner's dilemma problem. The non-stationarity in the prisoner's dilemma problem stems from the opponent's behavior being dependent on the agent's behavior. We show that the cooperative behavior is not a stable solution by reinforcement learning which implicitly assumes the environmental stationarity, whereas policy-based reinforcement learning which assumes the non-stationary environment is modeled as a partially observable Markov decision process can stably obtain cooperative behaviors.%マルチエージェント系における協調行動の発現機構の理解は重要である.その発現は主に進化ダイナミクスの文脈で説明がされてきたが,よりタイムスパンの短い個人の経験によっても協調行動が発現することが知られている.強化学習などの個体レベルの学習による協調行動の発現に関する考察は十分でない.本研究では,最も簡単なマルチエージェント系である囚人のジレンマ課題を用いて,この協調行動の強化学習による発現では,環境の非定常性を取り扱うことが重要であることを論ずる.ここで,環境の非定常性は,相手の行動方策が自分の行動に依存するとことに起因する.環境の定常性を仮定した強化学習法によれば協調行動が安定な解とならない一方で,内部状態をもつ方策に対する方策勾配型強化学習法によれば協調行動の学習が可能になることを示す.
机译:了解协作行为是如何出现的在多主体系统研究领域中很重要。尽管已经主要在进化动力学的背景下讨论了这种出现机制,但是众所周知,合作行为也出现在个体的短时间内。仅根据个人学习(例如强化学习)对出现机制的讨论还不够。在这项研究中,我们指出了通过使用最简单的多主体系统之一(即囚徒困境问题)将目标环境的非平稳性纳入强化学习的自适应行为中的重要性。囚徒困境中的非平稳性源于对手的行为依赖于特工的行为。我们表明,通过隐式假设环境平稳的强化学习,合作行为不是稳定的解决方案,而假设非平稳环境被建模为部分可观察的马尔可夫决策过程的基于策略的强化学习可以稳定地获得合作行为。マルチエージェント系における协调行动の発现机构の理解は重要である。その発现は主に进化ダイナミクスの文脉で说明がされてきたが,よりタイムスパンの短い个人の経験によっても协调行动が発现することが知られている。强化学习などの个体レベルの学习による协调行动の発现に关する考察は十分でない。ここで现では,环境の非定常性を取り扱うことが重要であることを论ずる。ここで,环境の非定常性は,相手の行动方策が自分の行动に依存するとことにとに起因する。环境の定常性を仮定した强化学习法によれば协调行动が安定な解とならない一方で,内部状态をもつ方策に対する方策勾配型强化学习法によれば协调行动の学习が可能になることを示す。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号