【24h】

Rapidly Finding the Best Arm Using Variance

机译:快速找到使用方差的最佳臂

获取原文

摘要

We address the problem of identifying the best arm in a pure-exploration multi-armed bandit problem. In this setting, the agent repeatedly pulls arms in order to identify the one associated with the maximum expected reward. We focus on the fixed-budget version of the problem in which the agent tries to find the best arm given a fixed number of arm pulls. We propose a novel sequential elimination method exploiting the empirical variance of the arms. We detail and analyse the overall approach providing theoretical and empirical results. The experimental evaluation shows the advantage of our variance-based rejection method in heterogeneous test settings, considering both identification accuracy and execution time.
机译:我们解决了识别纯粹探索多武装强盗问题中最好的手臂的问题。 在该设置中,代理重复拉动臂,以便识别与最大预期奖励相关联的人。 我们专注于固定预算版本的代理商试图找到一个固定数量的ARM拉动的最佳手臂。 我们提出了一种新的连续消除方法,利用武器的经验方差。 我们详细说明并分析了提供理论和经验结果的整体方法。 实验评估表明,考虑到识别精度和执行时间,我们在异构测试设置中的差异基抑制方法的优点。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号