Reinforcement learning; Temporal difference learning; Off-policy;
机译:一种深入学习算法,基于指针网络结构与监督学习和加固学习策略
机译:分层学习系统的专业化:统一的信息 - 监督,无监督和强化学习的理论方法
机译:通过监督策略学习,战术搜索和深度强化学习来改善RTS Game AI
机译:强化学习任务的监督学习和强化学习方法比较
机译:经典阿塔里游戏“PONG”自动化监督和加固学习的利用
机译:扩展的基底神经节强化学习模型以了解5-羟色胺和多巴胺在基于风险的决策奖励预测和惩罚学习中的作用
机译:强化学习任务中监督学习和强化学习方法的比较
机译:驱动强化学习:自适应控制的自监督模型