首页> 外文会议>International Conference on Algorithmic Learning Theory >Robust Risk-Averse Stochastic Multi-armed Bandits
【24h】

Robust Risk-Averse Stochastic Multi-armed Bandits

机译:强大的风险风险厌恶随机多武装匪

获取原文

摘要

We study a variant of the standard stochastic multi-armed bandit problem when one is not interested in the arm with the best mean, but instead in the arm maximizing some coherent risk measure criterion. Further, we are studying the deviations of the regret instead of the less informative expected regret. We provide an algorithm, called RA-UCB to solve this problem, together with a high probability bound on its regret.
机译:我们研究了标准随机多武装强盗问题的变种,当一个人对具有最佳平均值的手臂不感兴趣时​​,而是在手臂中最大化一些连贯的风险衡量标准。此外,我们正在研究遗憾的偏差,而不是较少的信息预期遗憾。我们提供一种称为RA-UCB的算法,可以解决这个问题,以及其遗憾的高概率。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号