首页> 外文会议>Machine learning >Actual return reinforcement learning versus Temporal Differences: Some theoretical and experimental results
【24h】

Actual return reinforcement learning versus Temporal Differences: Some theoretical and experimental results

机译:实际收益强化学习与时间差异:一些理论和实验结果

获取原文
获取原文并翻译 | 示例
获取外文期刊封面目录资料

摘要

This paper argues that for many domains, we can expect credit-assignment methods that use actual returns to be more effective for reinforcement learning than the more commonly used temporal difference methods. We present analysis and empirical evidence from three sets of experiments in different domains to support this claim. A new algorithm we call C-Trace, a variant of the P-Trace RL algorithm is introduced, and some possible advantages of using algorithms of this type are discussed.
机译:本文认为,对于许多领域,我们可以预期使用实际收益的学分分配方法比更常用的时间差异方法更有效地用于强化学习。我们提供来自不同领域的三组实验的分析和经验证据,以支持这一主张。介绍了一种称为C-Trace的新算法,它是P-Trace RL算法的一种变体,并讨论了使用这种算法的一些可能的优点。

著录项

  • 来源
    《Machine learning》|1996年|373-381|共9页
  • 会议地点 Bari(IT);Bari(IT)
  • 作者单位

    School of Computer Science and Engineering The University of New South Wales Sydney 2052 Australia;

    School of Computer Science and Engineering The University of New South Wales Sydney 2052 Australia;

  • 会议组织
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类 计算机的应用;
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号