首页> 外文期刊>電子情報通信学会技術研究報告. 情報論的学習理論と機械学習 >状態遷移確率と報酬確率の転移による強化学習のサンプル量削減
【24h】

状態遷移確率と報酬確率の転移による強化学習のサンプル量削減

机译:通过转移状态转移概率和奖励概率来减少强化学习的样本量

获取原文
获取原文并翻译 | 示例
           

摘要

強化学習は非常に多くの試行を必要とするため実環境に適用することが難しいが,転移学習を用いることで効率的な強化学習を実現することができる.本稿では,転移学習を強化学習に応用したTR-MAXを提案する.TR-MAXは,状態遷移確率と報酬確率を元問題から目標問題に転移させる強化学習アルゴリズムである.強化学習の効率を測る指標であるサンプル量について,TR-MAXが既存手法よりも優れていることを証明し,実験的にも優れていることを示す.
机译:由于需要大量的试验,因此很难将强化学习应用于实际环境,但是可以通过使用转移学习来实现有效的强化学习。在本文中,我们提出了TR-MAX,它将转移学习应用于强化学习。 TR-MAX是一种增强型学习算法,可将状态转换概率和奖励概率从原始问题转移到目标问题。我们证明了TR-MAX在样本量方面是优于现有方法的,它是衡量强化学习效率的指标,并且在实验上也证明了它的优越性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号