首页> 外文期刊>電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing >2種類のTD誤差を用いた脳における状態価値の計算モデル
【24h】

2種類のTD誤差を用いた脳における状態価値の計算モデル

机译:使用两种类型的TD误差的大脑状态值计算模型

获取原文
获取原文并翻译 | 示例
       

摘要

Schultzらにより,中脳ドーパミンニューロンが強化学習におけるTD誤差に相当する活動を示すことが報告されて以来,大脳基底核は強化学習に大きく関与しているという見方が有力であるが,従来の状態価値の計算モデルにはいくつかの疑問点がある.本研究では,予測および実測という2種類のTD誤差を用いることによって,不自然なバッファ回路などを必要としない状態価値の計算モデルを構成した.簡単な報酬予測課題に関して数値実験を行ったところ,予測TD誤差が行動や報酬の履歴に依存して短期的に変動し,それに追従する形で実測TD誤差がなだらかに変動することによって,長期的に見た状態価値が獲得可能であることが示された.本モデルは,関係する脳領域の構造や生理学的知見とかなりよく整合し,脳内に複数の異なるドーパミン系が存在する理由を説明することができる.
机译:由于Schultz等人报道大脑多巴胺神经元在强化学习中表现出与TD错误相对应的活动,因此占主导地位的是大脑的基础核很大程度上参与了强化学习。关于价值计算模型存在一些问题。在这项研究中,我们通过使用两种类型的TD误差(预测和实际测量)构建了一个不需要非自然缓冲电路等的状态值计算模型。当对简单的奖励预测任务进行数值实验时,预测的TD误差会在短期内根据动作和奖励的历史而波动,而测得的TD误差会随之跟随并缓慢波动,从而导致长期波动。结果表明,可以获得上述状态值。该模型与相关大脑区域的结构和生理结果相当吻合,可以解释为什么大脑中存在多个不同的多巴胺系统。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号