【24h】

Graphical Models for Bandit Problems

机译:强盗问题的图形模型

获取原文

摘要

We introduce a rich class of graphical models for multi-armed bandit problems that permit both the state or context space and the action space to be very large, yet succinctly specify the payoffs for any context-action pair. Our main result is an algorithm for such models whose regret is bounded by the number of parameters and whose running time depends only on the tree-width of the graph substructure induced by the action space.
机译:我们介绍了丰富的类图形模型,用于多武装匪管问题,允许状态或上下文空间和动作空间非常大,但简洁地指定了任何上下文操作对的收益。我们的主要结果是这种模型的算法,其后悔被参数的数量界定,其运行时间仅取决于动作空间引起的图形子结构的树宽。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号