【24h】

Optimality of LSTD and its Relation to MC

机译:LSTD的最优性及其与MC的关系

获取原文

摘要

In this analytical study we compare the risk of the Monte Carlo (MC) and the least-squares TD (LSTD) estimator. We prove that for the case of acyclic Markov Reward Processes (MRPs) LSTD has minimal risk for any convex loss function in the class of unbiase
机译:在本分析研究中,我们比较了蒙特卡洛(MC)和最小二乘TD(LSTD)估计量的风险。我们证明,对于非循环马尔可夫奖励过程(MRP),LSTD对于不平衡类中的任何凸损失函数具有最小的风险

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号