Multi-armed bandits; Online learning; Preference learning; Ranking; Top-k selection; Exploration/exploitation; Cumulative regret; Sample complexity; PAC learning;
机译:基于偏好的在线学习与决斗匪徒:调查
机译:基于偏好的强化学习:使用基于偏好的竞速算法进行进化直接策略搜索
机译:使用机器学习分类算法来控制在线调查中的选择偏差的倾向分数调整
机译:利用Bandit算法进行基于偏好的在线学习的调查
机译:土匪在线线性优化算法。
机译:使用机器学习分类算法来控制在线调查中选择偏差的倾向分数调整
机译:基于偏好的强化学习:使用基于偏好的竞速算法进行进化直接策略搜索