机译:折扣和平均奖励MDP的方差约束演员批评算法
机译:交易以后的奖励以获得当前的乐趣:色情消费和延迟贴现
机译:奖励预测中的个体间折扣因子差异与尾状激活在地形上相关。
机译:图形和MDP中的多目标折扣奖励验证
机译:价值激活对诱惑应对和自信心的影响:以主持人身份测试延迟奖励折扣和宗教/灵性
机译:感知食物适口性血糖水平和未来折扣:缺乏血糖水平对奖励折扣的影响的证据
机译:折扣和平均奖励MDP的差异约束演员批评算法
机译:从人类奖励中学习强化学习:奖励积极性,时间贴现,情节性和表现。