首页> 外文会议>Machine learning >Finite-time Regret Bounds for the Multiarmed Bandit Problem
【24h】

Finite-time Regret Bounds for the Multiarmed Bandit Problem

机译:多臂强盗问题的有限时间后悔界限

获取原文
获取原文并翻译 | 示例

摘要

We show finite-time regret bounds for the multiarmed bandit problem under the assumption that all rewards come from a bounded and fixed range. Our regret bounds after any number T of pulls are of the form a+b log T+c log~2 T, where a, b, and c are positive constants not depending on T. These bounds are shown to hold for variants of the popular e-greedy and Boltzmann allocation rules, and for a new simple deterministic allocation rule. Moreover, our results also apply to an extension of the basic bandit problem in which reward distributions can depend, to some extent, from previous pulls and observed rewards. Finally, we discuss the empirical performance of our algorithms with respect to specific choices of the reward distributions.
机译:在所有奖励均来自有界且固定范围的假设下,我们显示了多臂匪徒问题的有限时间后悔界限。在任意次数的拉后,我们的后悔界限的形式为a + b log T + c log〜2 T,其中a,b和c是不依赖于T的正常数。这些界限被证明适用于流行的e-greedy和Boltzmann分配规则,以及一种新的简单确定性分配规则。此外,我们的结果还适用于基本匪徒问题的扩展,其中奖励分配在一定程度上取决于先前的拉动和观察到的奖励。最后,我们讨论了关于奖励分配的特定选择的算法的经验性能。

著录项

  • 来源
    《Machine learning》|1998年|100-108|共9页
  • 会议地点 Madison WI(US);Madison WI(US)
  • 作者单位

    DSI, University of Milan via Comelico 39, I-20315 Milano, Italy;

    Lehrstuhl Informatik II Universitaet Dortmund D-44221 Dortmund, Germany;

  • 会议组织
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类 计算机的应用;
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号