首页> 外文会议> >A connectionist actor-critic algorithm for faster learning and biological plausibility
【24h】

A connectionist actor-critic algorithm for faster learning and biological plausibility

机译:一种连接主义的行为批评算法,可加快学习速度并提高生物学上的合理性

获取原文
获取原文并翻译 | 示例

摘要

We propose a novel biologically plausible actor-critic algorithm using policy gradients in order to achieve practical, model-free reinforcement learning. It does not rely on backpropagation and is the first neural actor-critic relying only on locally available information. We show it has an advantage over pure policy gradients methods for motor learning performance in the polecart problem. We are also able to closely simulate the dopaminergic signaling patterns in rats when confronted with a two cue problem, showing that local, connectionist models can effectively model the functioning of the intrinsic reward system.
机译:为了提出实用的,无模型的强化学习方法,我们提出了一种使用策略梯度的新型生物学上可行的行为者批评算法。它不依赖于反向传播,并且是第一个仅依赖本地可用信息的神经行为批评家。我们证明,相比于纯策略梯度方法,它在极车问题中的运动学习性能具有优势。当遇到两个提示问题时,我们还能够紧密模拟大鼠的多巴胺能信号传导模式,这表明本地的,连接主义的模型可以有效地模拟内在奖励系统的功能。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号