Direct policy search; Q-learning; model selection;
机译:优化的前瞻性树策略:前瞻性树策略和直接策略搜索之间的桥梁
机译:基于多目标模型的策略搜索以稀疏奖励实现数据有效学习
机译:相关向量机决策的定向策略搜索
机译:基于稀疏的梯度直接策略搜索
机译:使用异构代理的最佳稀疏移动目标搜索计划的自适应方法
机译:云计算中具有基于直接策略和关键字搜索的基于隐藏策略属性的数据共享
机译:政策检索方法中基于梯度的强化规划
机译:基于梯度的自适应随机搜索非可微优化问题。