Multi-armed bandits; dynamic ad allocation; dynamic pricing; dynamic procurement; exploration-exploitation tradeoff; regret; stochastic packing;
机译:在线学习,矢量成本和带背包的匪徒
机译:带背包土匪
机译:带背包组合半强盗
机译:用背包统一随机和对抗性匪徒
机译:带有土匪反馈的自适应偏好学习:信息过滤,决斗土匪和激励探索
机译:吸烟和强盗:用多武装强盗任务测量的探索性行为的吸烟者和非吸烟者差异的初步研究
机译:带背包的对抗匪徒