強化メタ学習則による遅延報酬問題の解決

荒木尚二郎; 酒井裕

首页> 外文期刊>電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing >強化メタ学習則による遅延報酬問題の解決

【24h】

強化メタ学習則による遅延報酬問題の解決

机译：強化メタ学習則による遅延報酬問題の解決

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相关主题

摘要

スパイクタイミング依存性シナプス可塑性(STDP)は，可塑性を引き起こす前のシナプス強度に依存し，その初期強度依存性は増強と減弱で非対称であることが知られている．この事実をそのまま解釈すると，全てのシナプスの強度はその依存性だけで決まるようなある範囲に落ち着いてしまい，入出力の履歴をほとんど反映しない，という問題が指摘されている．我々はこの問題を解決するために，シナプス増強のレベルが強化信号によって変化する強化メタ学習則を提案し，非対称な初期強度依存性を用いたまま，入力の相関を反映したシナプスパターンが獲得されることをシミュレーションで示した．ここで導入した強化信号は，動物が得た報酬に由来し，脳全体に広がることを想定している．報酬は動物が行った行動の結果として得られるものであり，その行動を生んだ神経活動は，報酬より数秒以上先行している．時間的に離れた報酬との関係をどのように神経系で強化するか，という問題は遅延報酬問題と呼ばれ，一般に解決が困難である．ここでは，我々が提案している強化メタ学習則は，1～2秒後に得られる報酬に相関のある入力が入ってきたシナプスだけ増強されることをシミュレーションで示し，遅延報酬問題も自然に解決することを示した．

著录项

来源
《電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing》 |2008年第383期|79-83|共5页
作者
荒木尚二郎; 酒井裕;
展开▼
作者单位

玉川大学工学研究科東京都町田市玉川学園6-1-1;

展开▼
收录信息
原文格式 PDF
正文语种日语
中图分类人工智能理论;
关键词
ドーパミン; メタ学習則; 遅延報酬;

強化メタ学習則による遅延報酬問題の解決

摘要

著录项

相关主题

期刊订阅