...
首页> 外文期刊>Periodica Mathematica Hungarica: Journal of the Janos Bolyai Mathematical Society >UCB revisited: Improved regret bounds for the stochastic multi-armed bandit problem
【24h】

UCB revisited: Improved regret bounds for the stochastic multi-armed bandit problem

机译:重新讨论了UCB:改进了随机多武装匪徒问题的后悔界限

获取原文
获取原文并翻译 | 示例
   

获取外文期刊封面封底 >>

       

摘要

In the stochastic multi-armed bandit problem we consider a modification of the UCB algorithm of Auer et al. [4]. For this modified algorithm we give an improved bound on the regret with respect to the optimal reward. While for the original UCB algorithm the regret in K-armed bandits after T trials is bounded by const, where Δ measures the distance between a suboptimal arm and the optimal arm, for the modified UCB algorithm we show an upper bound on the regret of const.
机译:在随机多武装匪徒问题中,我们考虑对Auer等人的UCB算法进行修改。 [4]。对于这种改进的算法,我们给出了关于最佳奖励的遗憾的改进界限。对于原始的UCB算法,T试验后K武装匪徒的遗憾受到const的限制,其中Δ衡量次优手臂与最优手臂之间的距离,而对于改进的UCB算法,我们在const的遗憾上显示了上限。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号