首页> 外文会议>Algorithmic learning theory >On Upper-Confidence Bound Policies for Switching Bandit Problems
【24h】

On Upper-Confidence Bound Policies for Switching Bandit Problems

机译:关于切换强盗问题的高置信界策略

获取原文
获取原文并翻译 | 示例

摘要

Many problems, such as cognitive radio, parameter control of a scanning tunnelling microscope or internet advertisement, can be modelled as non-stationary bandit problems where the distributions of rewards changes abruptly at unknown time instants. In this paper, we analyze two algorithms designed for solving this issue: discounted UCB (D-UCB) and sliding-window UCB (SW-UCB). We establish an upper-bound for the expected regret by upper-bounding the expectation of the number of times suboptimal arms are played. The proof relies on an interesting Hoeffding type inequality for self normalized deviations with a random number of summands. We establish a lower-bound for the regret in presence of abrupt changes in the arms reward distributions. We show that the discounted UCB and the sliding-window UCB both match the lower-bound up to a logarithmic factor. Numerical simulations show that D-UCB and SW-UCB perform significantly better than existing soft-max methods like EXP3.S.
机译:许多问题,例如认知无线电,扫描隧道显微镜的参数控制或互联网广告,都可以建模为非固定的强盗问题,其中奖励的分布在未知时刻突然改变。在本文中,我们分析了为解决此问题而设计的两种算法:折扣UCB(D-UCB)和滑动窗口UCB(SW-UCB)。通过将次优武器的使用次数的期望值提高到上限,我们为期望的遗憾建立了上限。证明依赖于有趣的Hoeffding型不等式,用于具有随机数量的求和的自归一化偏差。在武器奖励分配突然变化的情况下,我们为遗憾设置了下限。我们显示,折扣UCB和滑动窗口UCB都与下限相匹配,直至达到对数因子。数值模拟表明,D-UCB和SW-UCB的性能明显优于现有的soft-max方法(如EXP3.S)。

著录项

  • 来源
    《Algorithmic learning theory》|2011年|p.174-188|共15页
  • 会议地点 Espoo(FI);Espoo(FI)
  • 作者单位

    Institut Telecom, Telecom ParisTech, Laboratoire LTCI, CNRS UMR 5141 46 rue Barrault, 75634 Paris Cedex 13;

    Institut Telecom, Telecom ParisTech, Laboratoire LTCI, CNRS UMR 5141 46 rue Barrault, 75634 Paris Cedex 13;

  • 会议组织
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类 人工智能理论;
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号