首页> 外文期刊>電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing >自然TD学習:割引報酬におけるTD誤差を利用する自然方策勾配に基づいた強化学習法
【24h】

自然TD学習:割引報酬におけるTD誤差を利用する自然方策勾配に基づいた強化学習法

机译:自然TD学习:基于自然测量梯度的增强学习方法,使用TD奖励中的TD误差

获取原文
获取原文并翻译 | 示例
           

摘要

近年,環境との相互作用を通じて学習する手法である強化学習が注目されている.パラメータ空間がリーマン構造であっても自然勾配は最急勾配方向を表すため,自然勾配に基づく強化学習の方策勾配法である自然方策勾配法は特に強力なツールになる.しかし,自然方策勾配法を実問題に適用するには必要となるサンプル数や逆行列の計算が問題となる.そこで本報告では,実用的な自然方策勾配法として自然時間差分学習法(自然TD学習法)を提案する.これは目的関数が平均報酬に制限されるために多くのサンプル数が必要となる問題に対処し,逆行列の計算を必要としない適応的な自然方策勾配法である.自然TD学習では状態価値関数のTD誤差を状態空間ではなく状態行動空間で定義する.この時,TD誤差はアドバンテージ関数をコードし,さらにTD誤差を近似したある線形近似器の重みが自然方策勾配を与えることを示す.2種のシミュレーション実験に自然TD学習を適用し,有効性を議論する.
机译:近年来,加强学习,这是一种通过与环境互动学习的方法,引起了关注。即使参数空间是雷曼结构,天然梯度也表示最快的梯度方向,因此是基于自然梯度的强化学习的测量方法的天然应变梯度,是一种特别强大的工具。然而,计算将自然应变梯度法应用于实际问题所需的样本数和逆矩阵的计算是问题。因此,在本报告中,我们提出了一种自然时差学习方法(天然TD学习方法)作为实际的天然应变梯度方法。这是一种自适应自然政策梯度方法,解决了需要许多样本的问题,因为目标函数限于平均补偿,并且不需要计算逆矩阵。在自然TD学习中,状态值函数的TD误差在状态行为空间而不是状态空间中定义。此时,TD误差对优势的优点进行编码,并指示近似TD误差的某个线性近似的权重给出了天然应变梯度。两种类型的仿真实验适用于自然TD学习并讨论效果。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号