Training; Approximation algorithms; Learning (artificial intelligence); Gradient methods; Backpropagation; Machine learning; Function approximation;
机译:政策梯度估计中规则化和特征选择的演员 - 评论家学习控制
机译:贝叶斯政策梯度和行动者关键算法
机译:通过采用非参数策略梯度的主演算法进行隧道通风控制
机译:AC2:具有主要和二级评论家的政策渐变演员
机译:南非种族隔离国家的语言政策制定和实施:母语和南非荷兰语作为黑人中小学的教学媒体,1953-1979年
机译:基于政策梯度和演员批评的国家代表性学习自主车辆安全驾驶
机译:贝叶斯策略梯度和actor-Critic算法