机译:无需强化或奖励多关节运动的迭代学习:对伯恩斯坦关于敏捷性的自由度问题的回顾
机译:基于多型广义政策迭代的加固Q学习及其在2-DOF直升机的应用
机译:一种基于策略迭代的平均奖励强化学习算法:收益管理与收敛性分析的实证结果
机译:使用人类产生的奖励训练演员关键性强化学习控制员进行手臂运动
机译:具有冗余DOF的机器人臂的人类运动:虚拟春天阻碍假设来解决伯尔尼斯坦问题
机译:没有奖励的强化学习。
机译:Gadgetarm-自动掌握4-DOF机器人手臂通过加固学习进行任意物体的生成和操纵
机译:没有加强或奖励的迭代学习,对多个运动的转变:伯恩斯坦对灵巧性的反转问题
机译:从人类奖励中学习强化学习:奖励积极性,时间贴现,情节性和表现。