首页> 外文期刊>電子情報通信学会技術研究報告 >不確実な報酬予測におけるドーパミン活動の計算論的モデル
【24h】

不確実な報酬予測におけるドーパミン活動の計算論的モデル

机译:不确定奖励预测中的多巴胺活性计算模型

获取原文
获取原文并翻译 | 示例
       

摘要

動物にとって,不確かな環境で生存するためには,未来に与えられる報酬をできるだけ正確に予測することが重要である.霊長類の中脳にあるドーパミン作動性(DA)細胞は,報酬予測に関与し,学習や連動制御にも関わることから多くの生理学的,計算論的研究がなされている.計算論的には,DA細胞の活動は,強化学習におけるTD誤差を表現するという仮説が提案されている.しかし近年,確率的報酬課題におけるDA細胞の活動頻度が,実際の報酬を得る時刻に向けてなだらかに増加することが報告されており,これは単純なTDモデルでは一見説明できないことから,議論を呼んでいる.本研究では,確率的報酬課題に内在する不確かさに着目し,DA細胞の予測的な活動度上昇を説明できる計算論的モデルを提案する.計算機実験により,確率的定式化によって定義された期待誤差が,報酬待ち時刻のDA細胞の活動をより良く説明できることと,さらに単試行の結果をも再現できることを示す.%In order for animals to behave effectively in their surrounding uncertain environments, it is essentially important to predict future outcomes as accurately as possible. Dopaminergic (DA) neurons in the primate mid-brain have been known to be involved in the brain's reward system and in many brain functions including learning and motor control, and therefore many physiological and computational studies have investigated the role of DA neurons. Prom a computational perspective, phasic activities of DA neurons have been considered as representing temporal difference (TD) errors, a learning signal in reinforcement learning. Recently, however, several studies have reported that, in stochastic reward tasks, the DA activities gradually increase before receiving actual rewards, which cannot be well explained by the simple TD model. In this study, we propose an alternative model based on a probabilistic formulation of the stochastic reward task to explain the predictive increase of DA activities. In simulation experiments, expectation errors denned by the probabilistic modeling, well described the gradually increasing DA activities during a wait period even in a single trial.
机译:对于动物来说,尽可能准确地预测未来的奖励以在不确定的环境中生存很重要,灵长类中脑中的多巴胺能(DA)细胞参与奖励的预测。然而,已经进行了许多生理和计算研究,因为它们与学习和联锁控制有关。通过计算,有人提出了DA细胞活性代表强化学习中TD错误的假说。但是,近年来,据报道,随机奖励任务中的DA细胞的活动频率随着获得实际奖励的时间而逐渐增加,这不能用简单的TD模型来解释。在这项研究中,我们专注于随机奖励任务中固有的不确定性,并提出了一个可以解释DA细胞活性的预测增加的计算模型。我们表明,定义的预期误差可以更好地解释等待奖励时DA细胞的活动,并且还可以重现单次试验的结果。为了使动物在周围不确定的环境中有效发挥作用,至关重要的是尽可能准确地预测未来的结果。已知灵长类中脑中的多巴胺能(DA)神经元参与了大脑的奖励系统和在许多大脑功能(包括学习和运动控制)中,因此许多生理和计算研究都研究了DA神经元的作用。从计算的角度来看,DA神经元的相活动被认为代表了时差(TD)错误,这是一种学习信号然而,最近有研究报道,在随机奖励任务中,DA活动在获得实际奖励之前逐渐增加,这不能用简单的TD模型很好地解释。随机奖励任务的概率表述来解释DA活动的预测性增加在模拟实验中,概率模型所确定的期望误差很好地描述了即使在一次试验中,在等待期间逐渐增加的DA活动。

著录项

  • 来源
    《電子情報通信学会技術研究報告》 |2009年第480期|p.267-271|共5页
  • 作者单位

    奈良先端科学技術大学院大学情報科学研究科 〒630-0192 奈良県生駒市高山町 8916-5,京都大学大学院情報学研究科 〒611-0011 京都府宇治市五ケ庄;

    京都大学大学院情報学研究科 〒611-0011 京都府宇治市五ケ庄;

    京都大学大学院情報学研究科 〒611-0011 京都府宇治市五ケ庄 奈良先端科学技術大学院大学情報科学研究科 〒630-0192 奈良県生駒市高山町 8916-5;

  • 收录信息
  • 原文格式 PDF
  • 正文语种 jpn
  • 中图分类
  • 关键词

    ドーパミン細胞; 確率的報酬課題; 強化学習; TD誤差; 不確実性;

    机译:ドーパミン细胞;确率的报酬课题;强化学习;TD误差;不确実性;
  • 入库时间 2022-08-18 00:35:24

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号