...
首页> 外文期刊>Periodica Mathematica Hungarica >UCB revisited: Improved regret bounds for the stochastic multi-armed bandit problem
【24h】

UCB revisited: Improved regret bounds for the stochastic multi-armed bandit problem

机译:重新讨论了UCB:改进了随机多武装匪徒问题的后悔界限

获取原文
获取原文并翻译 | 示例
   

获取外文期刊封面封底 >>

       

摘要

In the stochastic multi-armed bandit problem we consider a modification of the UCB algorithm of Auer et al. [4]. For this modified algorithm we give an improved bound on the regret with respect to the optimal reward. While for the original UCB algorithm the regret in K-armed bandits after T trials is bounded by const · #xA; #xA;nfrac{{Klog (T)}}n{Delta }n, where Δ measures the distance between a suboptimal arm and the optimal arm, for the modified UCB algorithm we show an upper bound on the regret of const · $nfrac{{Klog (TDelta ^2 )}}n{Delta }n$nfrac{{Klog (TDelta ^2 )}}n{Delta } .
机译:在随机多武装匪徒问题中,我们考虑对Auer等人的UCB算法进行修改。 [4]。对于这种改进的算法,我们给出了关于最佳奖励的遗憾的改进界限。对于原始的UCB算法,T试验后K武装匪徒的遗憾受到const·#xA的限制; #xA; nfrac {{Klog(T)}} n {Delta} n,其中Δ衡量次优臂与最佳臂之间的距离,对于改进的UCB算法,我们在const·$ nfrac的遗憾上显示了上限{{Klog(TDelta ^ 2)}} n {Delta} n $ nfrac {{Klog(TDelta ^ 2)}} n {Delta}。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号