Department of Computer Science and Engineering University of South Florida Tampa, Florida 33620;
机译:从人的奖励中构筑强化学习:奖励积极性,暂时性打折,流行和表现
机译:消失的折衷方法可实现平均奖励最优:强和弱连续案例
机译:具有无穷奖励的可数状态Markov游戏中平均和alpha折扣最优的收缩条件
机译:具有折扣和平均奖励标准的半马尔可夫决策过程的统一方法
机译:价值激活对诱惑应对和自信心的影响:以主持人身份测试延迟奖励折扣和宗教/灵性
机译:时间折扣可以解释不健康的行为吗?系统的回顾和强化学习的视角
机译:从人类奖励中学习强化学习:奖励积极性,时间贴现,情节性和表现
机译:从人类奖励中学习强化学习:奖励积极性,时间贴现,情节性和表现。