...
首页> 外文期刊>電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing >自然TD学習:割引報酬におけるTD誤差を利用する自然方策勾配に基づいた強化学習法
【24h】

自然TD学習:割引報酬におけるTD誤差を利用する自然方策勾配に基づいた強化学習法

机译:自然TD学习:基于自然政策梯度的增强型学习方法,利用折扣折扣中的TD错误

获取原文
获取原文并翻译 | 示例
   

获取外文期刊封面封底 >>

       

摘要

近年,環境との相互作用を通じて学習する手法である強化学習が注目されている.パラメータ空間がリーマン構造であっても自然勾配は最急勾配方向を表すため,自然勾配に基づく強化学習の方策勾配法である自然方策勾配法は特に強力なツールになる.しかし,自然方策勾配法を実問題に適用するには必要となるサンプル数や逆行列の計算が問題となる.そこで本報告では,実用的な自然方策勾配法として自然時間差分学習法(自然TD学習法)を提案する.これは目的関数が平均報酬に制限されるために多くのサンプル数が必要となる問題に対処し,逆行列の計算を必要としない適応的な自然方策勾配法である.自然TD学習では状態価値関数のTD誤差を状態空間ではなく状態行動空間で定義する.この時,TD誤差はアドバンテージ関数をコードし,さらにTD誤差を近似したある線形近似器の重みが自然方策勾配を与えることを示す.2種のシミュレーション実験に自然TD学習を適用し,有効性を議論する.
机译:近年来,密集学习是一种通过与环境互动来学习的方法,已引起人们的关注。即使参数空间具有雷曼结构,自然梯度也代表最陡的梯度方向,因此自然策略梯度方法是一种基于自然梯度的强化学习策略,是一种非常强大的工具。但是,问题在于将自然策略梯度方法应用于实际问题所需的样本数量和逆矩阵的计算。因此,在本报告中,我们提出了一种自然时差学习方法(自然TD学习方法)作为一种实用的自然政策梯度方法。这是一种自适应的自然政策梯度方法,该方法解决了由于目标函数限于平均奖励而不需要大量样本的问题,并且不需要计算逆矩阵。在自然TD学习中,状态值函数的TD误差不是在状态空间中定义的,而是在状态动作空间中定义的。此时,TD误差编码了一个优势函数,并且表明近似TD误差的线性逼近设备的权重给出了自然的策略梯度。我们将自然TD学习应用于两种类型的模拟实验并讨论其有效性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号