机译:有限轮适应性学习:抛硬币,多武装土匪和成对比较中的排名
机译:AdaptiveBandit:用于分子模拟中的自适应采样的多武装强盗框架
机译:使用多臂土匪进行适应性教育实验的统计结果
机译:使用Gittins索引的基于贝叶斯自适应强盗的设计,用于具有正态分布端点的多臂试验
机译:与多臂土匪学习不同的排名
机译:偏好学习的多武装土匪
机译:使用Gittins索引的基于贝叶斯自适应强盗的设计用于具有正态分布端点的多臂试验
机译:有限的记忆探索:用于硬币折腾,嘈杂比较和多武装匪徒的流媒体算法
机译:在变化的世界中学习:非贝叶斯不安定的多武装强盗