首页> 外文期刊>電子情報通信学会技術研究報告 >2種類のTD誤差を用いた脳における状態価値の計算モデル
【24h】

2種類のTD誤差を用いた脳における状態価値の計算モデル

机译:使用两种TD误差的大脑状态值计算模型

获取原文
获取原文并翻译 | 示例
       

摘要

Schultzらにより,中脳ドーパミンニューロンが強化学習におけるTD誤差に相当する活動を示すことが報告されて以来,大脳基底核は強化学習に大きく関与しているという見方が有力であるが,従来の状態価値の計算モデルにはいくつかの疑問点がある.本研究では,予測および実測という2種類のTD誤差を用いることによって,不自然なバッファ回路などを必要としない状態価値の計算モデルを構成した.簡単な報酬予測課題に関して数値実験を行ったところ,予測TD誤差が行動や報酬の履歴に依存して短期的に変動し,それに追従する形で実測TD誤差がなだらかに変動することによって,長期的に見た状態価値が獲得可能であることが示された.本モデルは,関係する脳領域の構造や生理学的知見とかなりよく整合し,脳内に複数の異なるドーパミン系が存在する理由を説明することができる.%The basal ganglia has been considered to be deeply involved in reinforcement learning since Schultz et al. reported that the midbrain dopamine neurons show activities in accordance with temporal differences (TD). However, existing TD-learning models of the basal ganglia seem to assume some implausible neural mechanisms. We constructed a more plausible model for state value computation by introducing two kinds of TD signals: prospective and actual. Computer simulations on a simple reward prediction task showed that the prospective TD signal varies frequently depending on the short-term history of actions and rewards, and that longer-term state values can be acquired based on the actual TD signal which follows the prospective one with a smaller variation. This model leads to the hypothesis that these two TD signals may be encoded by different dopamine systems in the midbrain.
机译:自从Schultz等人报道中脑多巴胺神经元在强化学习中表现出与TD错误相当的活动后,基底神经节大量参与强化学习的观点具有影响力。关于该值计算模型存在一些疑问。在本研究中,我们通过使用两种类型的TD误差(预测和实际测量)构建了一个不需要非自然缓冲电路的状态值计算模型。在简单的奖励预测任务上进行的数值实验表明,预测的TD误差在短期内会根据行为和奖励历史而波动,并且所测得的TD误差会以跟随其的形式波动,从而导致长期的该模型与所涉及的大脑区域的结构和生理结果合理匹配,并说明了为什么大脑中存在多个不同的多巴胺系统。自Schultz等人报道中脑多巴胺神经元显示出与时间差异(TD)一致的活动后,基底神经节就被认为与强化学习密切相关。通过引入前瞻性和实际两种TD信号,我们为状态值计算构建了一个更合理的模型。对简单奖励预测任务的计算机仿真显示,取决于基础神经节,预期TD信号经常变化,似乎假定了一些令人难以置信的神经机制。关于行动和奖励的短期历史,可以根据实际的TD信号获取较长期的状态值,该TD信号遵循变化较小的预期信号。此模型导致以下假设:这两个TD信号可能由中脑中的不同多巴胺系统编码。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号