Why is Posterior Sampling Better than Optimism for Reinforcement Learning?

Ian Osband; Benjamin Van Roy

首页> 外文期刊>JMLR: Workshop and Conference Proceedings >Why is Posterior Sampling Better than Optimism for Reinforcement Learning?

【24h】

Why is Posterior Sampling Better than Optimism for Reinforcement Learning?

机译：为什么后面抽样比乐观学习更乐观？

获取原文

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

Computational results demonstrate that posterior sampling for reinforcement learning (PSRL) dramatically outperforms existing algorithms driven by optimism, such as UCRL2. We provide insight into the extent of this performance boost and the phenomenon that drives it. We leverage this insight to establish an $ilde{O}(Hsqrt{SAT})$ Bayesian regret bound for PSRL in finite-horizon episodic Markov decision processes. This improves upon the best previous Bayesian regret bound of $ilde{O}(H S sqrt{AT})$ for any reinforcement learning algorithm. Our theoretical results are supported by extensive empirical evaluation.

机译：计算结果表明，用于增强学习（PSRL）的后部采样显着优于由乐观乐观驱动的现有算法，例如UCRL2。我们提供洞察这一表现提升的程度和驱动它的现象。我们利用这一洞察力来建立$ tilde {o}（h sqrt {sat}）$ jayesian遗憾在有限地平线episodic markov决策过程中为psrl绑定。这改善了以$ tilde {o}（H s sqrt {at}）$的最佳前一个贝叶斯遗憾，适用于任何加强学习算法。我们的理论结果得到了广泛的实证评价支持。

著录项

来源
《JMLR: Workshop and Conference Proceedings》 |2017年第2011期|共10页
作者
Ian Osband; Benjamin Van Roy;
展开▼
作者单位

展开▼
收录信息
原文格式 PDF
正文语种
中图分类
关键词

相似文献

外文文献
中文文献
专利

1. Dueling Posterior Sampling for Preference-Based Reinforcement Learning [J] . Ellen Novoseller, Yibing Wei, Yanan Sui, JMLR: Workshop and Conference Proceedings . 2020,第2010期

机译：基于优先级的加强学习的决斗后部抽样
2. Rationality, Optimism and Guarantees in General Reinforcement Learning [J] . Peter Sunehag, Marcus Hutter Journal of machine learning research . 2015,第Apr期

机译：强化学习中的理性，乐观和保证
3. Proximal Gradient Temporal Difference Learning: Stable Reinforcement Learning with Polynomial Sample Complexity [J] . Bo Liu, Ian Gemp, Mohammad Ghavamzadeh, The Journal of Artificial Intelligence Research . 2018,第8期

机译：渐近时间差异学习：具有多项式样本复杂度的稳定强化学习
4. Why is Posterior Sampling Better than Optimism for Reinforcement Learning? [C] . Ian Osband, Benjamin Van Roy International Conference on Machine Learning . 2018

机译：为什么后面抽样比乐观学习更乐观？
5. Sample-Efficient Nonconvex Optimization Algorithms in Machine Learning and Reinforcement Learning [D] . Xu, Pan. 2021

机译：机器学习和加固学习中的采样高效的非透露算法
6. Classification of amyotrophic lateral sclerosis disease based on convolutional neural network and reinforcement sample learning algorithm [O] . Abdulkadir Sengur, Yaman Akbulut, Yanhui Guo, 2017

机译：基于卷积神经网络和增强样本学习算法的肌萎缩侧索硬化病分类
7. An Optimistic Posterior Sampling Strategy for Bayesian Reinforcement Learning [O] . Fonteneau, Raphaël, Korda, Nathan, Munos, Rémi 2013

机译：贝叶斯强化学习的后验乐观抽样策略

Why is Posterior Sampling Better than Optimism for Reinforcement Learning?

摘要

著录项

相似文献

相关主题

期刊订阅