首页> 外文期刊>電子情報通信学会技術研究報告 >他者の内部状態推定と行動予測を用いた意思決定モデル
【24h】

他者の内部状態推定と行動予測を用いた意思決定モデル

机译:使用他人的内部状态估计和行为预测的决策模型

获取原文
获取原文并翻译 | 示例
       

摘要

マルチエージェント環境では,他者の内部状態の変化を相手モデルを用いて推定し,それに基づいて行動を決定することが重要である.近年,マルチエージェント課題遂行中のサルやヒトの行動に対して,相手モデルを含まないモデルフリー強化学習による説明が試みられている.これらの実験では自身の行動・報酬履歴のみから他者の行動が一意に決まる課題設定が用いられているために,自身の意思決定において他者の内部状態変化を明に推定する必要のない課題となっていた.本研究では,他者の行動観測から他者の行動価値を推定可能であり,また行動価値を考慮することにより最適な行動がとれる課題を開発した.被験者の意思決定過程を,相手モデルを考慮したモデル同定強化学習として定式化した.また,本課題を用いてfMRI実験を行うことにより,提案モデルが被験者の行動をよく説明し,さらにモデルに基づく脳活動解析により相手モデルの推定に前頭前野が関わることを検証した.%In multi-agent environments, it may be useful to predict other agent's actions by estimating some sort of internal state of the opponent model. In recent years, model-free reinforcement learning has been used to capture both monkey's and human's behaviors in multi-agent tasks, but such success is attributed to the simple task setting, in which the other agent's action can be determined by the history of subject's own actions and rewards. In this study, we propose a new behavioral task which substantially increases the advantage of estimating the other agent's internal state from action observations. Subjects can select optimal actions based on prediction employing an action-value function. We introduce a model-based reinforcement learning model that well reproduces subject's behaviors in the task. Concurrent evaluation of brain activity using fMRI, in which the cognitive loads are evaluated as regression functions, highlights the role of the prefrontal cortex in the prediction of the other agent.
机译:在多主体环境中,重要的是使用伙伴模型来估计其他人的内部状态的变化,并据此决定行动。近年来,已尝试通过使用不包含伙伴模型的无模型强化学习来解释多主体任务期间猴子和人类的行为。在这些实验中,使用仅根据他人的行为/奖励历史来唯一确定他人行为的任务设置,因此,在做出决策时无需明确估计他人内部状态的变化。它是。在这项研究中,我们开发了一个任务,该任务可以通过观察他人的行为来估计他人的行为值,并可以通过考虑行为值来采取最佳行为。考虑伙伴模型,将受试者的决策过程制定为模型识别强化学习。此外,我们使用该任务进行了功能磁共振成像实验,提出的模型很好地说明了受试者的行为,并通过基于该模型的大脑活动分析验证了前额叶皮层参与了伴侣模型的估计。 %在多主体环境中,通过估计对手模型的某种内部状态来预测其他主体的行为可能很有用。近年来,无模型强化学习已被用来捕获猴子和人类在多主体行为中的行为。代理任务,但是这种成功归因于简单的任务设置,在该任务设置中,另一个代理的行为可以通过主体自身的行为和奖励的历史来确定。在本研究中,我们提出了一种新的行为任务,该任务大大增加了测量的优势我们可以使用基于模型的强化学习模型,该模型可以很好地重现任务中受试者的行为。其中认知负荷被评估为回归函数,突出了前额叶皮层在预后预测中的作用。其他代理。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号