机译:多臂匪问题中使用大偏差原理的非渐近分析
Graduate School of Frontier Sciences, The University of Tokyo Kashiwanoha 5-1-5, Kashiwa-shi, Chiba, 277-8561, Japan;
Graduate School of Information Science and Technology, The University of Tokyo Hongo 7-3-1, Bunkyo-ku, Tokyo, 113-8656, Japan;
multiarmed bandit problem; reinforcement learning; large deviation principle; moment generating function;
机译:多臂匪问题中使用大偏差原理的非渐近分析
机译:多臂强盗问题的有限时间分析
机译:一种新的半有界奖励的强盗算法的非渐近分析
机译:基于中心趋势偏差原理的聚类分析
机译:大偏差原理在期权定价和投资组合选择中的应用
机译:躁动多臂强盗游戏中的社会学习代理人的纳什均衡
机译:鞅和多臂匪的paC-Bayesian分析