首页> 美国卫生研究院文献>other >Anytime Exploration for Multi-armed Bandits using ConfidenceInformation
【2h】

Anytime Exploration for Multi-armed Bandits using ConfidenceInformation

机译:随时随地探索多臂匪信息

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

We introduce anytime Explore-m, a pure exploration problem for multi-armed bandits (MAB) that requires making a prediction of the top-m arms at every time step. Anytime Explore-m is more practical than fixed budget or fixed confidence formulations of the top-m problem, since many applications involve a finite, but unpredictable, budget. However, the development and analysis of anytime algorithms present many challenges. We propose AT-LUCB (AnyTime Lower and Upper Confidence Bound), the first nontrivial algorithm that provably solves anytime Explore-m. Our analysis shows that the sample complexity of AT-LUCB is competitive to anytime variants of existing algorithms. Moreover, our empirical evaluation on AT-LUCB shows that AT-LUCB performs as well as or better than state-of-the-art baseline methods for anytime Explore-m.
机译:我们在任何时候都介绍Explore-m,这是多臂匪徒(MAB)的一个纯粹的探索问题,需要在每个时间步长预测前m个武器。无论何时,Explore-m都比固定预算或top-m问题的固定置信度公式更实用,因为许多应用程序涉及有限但不可预测的预算。然而,随时算法的开发和分析提出了许多挑战。我们提出AT-LUCB(任意时间上下限界线),这是第一种可证明可随时解决Explore-m的非平凡算法。我们的分析表明,AT-LUCB的样本复杂度与现有算法的任何时变都具有竞争力。此外,我们对AT-LUCB的经验评估表明,AT-LUCB在任何时候的Explore-m中都表现出与最新基准方法相同或更好的性能。

著录项

  • 期刊名称 other
  • 作者

    Kwang-Sung Jun; Robert Nowak;

  • 作者单位
  • 年(卷),期 -1(48),-1
  • 年度 -1
  • 页码 974–982
  • 总页数 20
  • 原文格式 PDF
  • 正文语种
  • 中图分类
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号