concave programming; learning (artificial intelligence); Markov processes;
机译:通过监督策略学习,战术搜索和深度强化学习来改善RTS Game AI
机译:不确定关联Markov决策过程的多层感知器神经网络的近似鲁棒策略迭代
机译:无限时间折扣成本线性二次调节器问题的连续时间Q学习
机译:无限视野折扣强化学习中的策略搜索:通过与非凸优化的连接而取得的进步:特邀演讲
机译:强化学习中的政策建议,非凸和分布式优化
机译:第一组代谢型谷氨酸受体拮抗剂对大鼠延迟折扣任务中对增强子幅度和延迟增强的敏感性的影响:延迟呈递顺序的贡献
机译:强化学习中要折扣还是不折扣:R学习和Q学习比较的案例研究