Department of Computer Science and Engineering University of South Florida Tampa, Florida 33620;
机译:折扣价值的强化学习常常失去了在动物学习中的应用目标
机译:从人的奖励中构筑强化学习:奖励积极性,暂时性打折,流行和表现
机译:使用强化学习和神经网络在营销活动中分配折扣
机译:敏感性折扣最优:统一折扣和平均奖励强化学习
机译:强化学习和循环强化学习以实现动态资产组合优化
机译:时间折扣可以解释不健康的行为吗?系统的回顾和强化学习的视角
机译:强化学习中要折扣还是不折扣:R学习和Q学习比较的案例研究
机译:从人类奖励中学习强化学习:奖励积极性,时间贴现,情节性和表现。