...
【24h】

強化メタ学習則による遅延報酬問題の解決

机译:強化メタ学習則による遅延報酬問題の解決

获取原文
获取原文并翻译 | 示例
           

摘要

スパイクタイミング依存性シナプス可塑性(STDP)は,可塑性を引き起こす前のシナプス強度に依存し,その初期強度依存性は増強と減弱で非対称であることが知られている.この事実をそのまま解釈すると,全てのシナプスの強度はその依存性だけで決まるようなある範囲に落ち着いてしまい,入出力の履歴をほとんど反映しない,という問題が指摘されている.我々はこの問題を解決するために,シナプス増強のレベルが強化信号によって変化する強化メタ学習則を提案し,非対称な初期強度依存性を用いたまま,入力の相関を反映したシナプスパターンが獲得されることをシミュレーションで示した.ここで導入した強化信号は,動物が得た報酬に由来し,脳全体に広がることを想定している.報酬は動物が行った行動の結果として得られるものであり,その行動を生んだ神経活動は,報酬より数秒以上先行している.時間的に離れた報酬との関係をどのように神経系で強化するか,という問題は遅延報酬問題と呼ばれ,一般に解決が困難である.ここでは,我々が提案している強化メタ学習則は,1~2秒後に得られる報酬に相関のある入力が入ってきたシナプスだけ増強されることをシミュレーションで示し,遅延報酬問題も自然に解決することを示した.

著录项

获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号