...
机译:消失的折衷方法可实现平均奖励最优:强和弱连续案例
机译:分段确定性马尔可夫过程的平均连续控制的消失折扣法
机译:Markov决策过程的平均成本优化方程解决方案与弱连续内核:重新发现的定点方法
机译:具有无穷奖励的可数状态Markov游戏中平均和alpha折扣最优的收缩条件
机译:敏感性折扣最优:统一折扣和平均奖励强化学习
机译:价值激活对诱惑应对和自信心的影响:以主持人身份测试延迟奖励折扣和宗教/灵性
机译:感知食物适口性血糖水平和未来折扣:缺乏血糖水平对奖励折扣的影响的证据
机译:分段确定性马尔可夫流程平均连续控制的消失折扣方法
机译:具有无界奖励的Countablestate markov游戏中平均和alpha折扣最优性的收缩条件