机译:基于偏好的强化学习:形式框架和策略迭代算法
Department of Computer Science, TU Darmstadt, Darmstadt, Germany;
Department of Mathematics and Computer Science, Marburg University, Marburg, Germany;
Department of Mathematics and Computer Science, Marburg University, Marburg, Germany;
Department of Computer Science, TU Darmstadt, Darmstadt, Germany;
reinforcement learning; preference learning;
机译:基于偏好的强化学习:使用基于偏好的竞速算法进行进化直接策略搜索
机译:一种基于策略迭代的平均奖励强化学习算法:收益管理与收敛性分析的实证结果
机译:动态网络中强化学习算法性能分析的形式验证模型
机译:基于首选项的策略迭代:利用首选项学习进行强化学习
机译:关于用于增强学习的无模型策略迭代算法的收敛:不连续平均动力学下的随机逼近。
机译:正式的医学知识表示支持深度学习算法生物信息学管道基因组学数据分析和大数据过程
机译:基于偏好的钢筋学习:正式框架和政策迭代算法