...
机译:一类不安定多武装匪徒问题标准奖励函数的贪心策略的最优性
School of Information, Wuhan University of Technology, Hubei 430070, People's Republic of China;
机译:不安多臂强盗问题近视策略的最优性:公理化方法
机译:多动静力土的贪婪指数启发式的渐近最优性
机译:一般非平稳有限范围不安的多武装,多动作匪徒的渐近最优启发式
机译:一类单调仿射不安多臂匪的近视策略的最优性
机译:在瞬息万变的世界中学习:具有未知动态的躁动多臂强盗
机译:一类可恢复初始化的强盗的可失性和最佳索引策略
机译:一类难以置信的多武装匪徒问题一类标准奖励功能的贪婪政策的最优性
机译:在变化的世界中学习:非贝叶斯不安定的多武装强盗