首页> 外文OA文献 >Bayesian reinforcement learning in markovian and non-markovian tasks
【2h】

Bayesian reinforcement learning in markovian and non-markovian tasks

机译:马氏和非马氏任务中的贝叶斯强化学习

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

We present a Bayesian reinforcement learning model with a working memory module which can solve some non-Markovian decision processes. The model is tested, and compared against SARSA (lambda), on a standard working-memory task from the psychology literature. Our method uses the Kalman temporal difference framework, And its extension to stochastic state transitions, to give posterior distributions over state-action values. This framework provides a natural mechanism for using reward information to update more than the current state-action pair, and thus negates the use of eligibility traces. Furthermore, the existence of full posterior distributions allows the use of Thompson sampling for action selection, which in turn removes the need to choose an appropriately parameterised action-selection method.
机译:我们提出了带有工作记忆模块的贝叶斯强化学习模型,该模型可以解决一些非马尔可夫决策过程。根据心理学文献中的标准工作记忆任务,对该模型进行了测试,并与SARSA(lambda)进行了比较。我们的方法使用Kalman时差框架,并将其扩展到随机状态转移,以给出状态作用值的后验分布。该框架提供了一种自然的机制,用于使用奖励信息来更新比当前状态-动作对更多的信息,从而否定了资格跟踪的使用。此外,完全后验分布的存在允许使用汤普森采样进行动作选择,从而消除了选择适当参数化的动作选择方法的需要。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号