机译:基于偏好的强化学习:形式框架和策略迭代算法
机译:基于偏好的强化学习:使用基于偏好的竞速算法进行进化直接策略搜索
机译:一种基于策略迭代的平均奖励强化学习算法:收益管理与收敛性分析的实证结果
机译:基于首选项的策略迭代:利用首选项学习进行强化学习
机译:关于用于增强学习的无模型策略迭代算法的收敛:不连续平均动力学下的随机逼近。
机译:正式的医学知识表示支持深度学习算法生物信息学管道基因组学数据分析和大数据过程
机译:基于偏好的强化学习:使用基于偏好的竞速算法进行进化直接策略搜索