...
首页> 外文期刊>電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing >自然方策勾配法に基づくオフポリシー型強化学習法
【24h】

自然方策勾配法に基づくオフポリシー型強化学習法

机译:基于自然政策梯度法的非政策强化学习方法

获取原文
获取原文并翻译 | 示例
           

摘要

強化学習法には"探索搾取問題"と呼ばれる問題がある?これは,過去に得た知識の最良の方策を実行(搾取)するか,存在するかも知れないより良い方策を探索するかを決定する問題である.本報告では,この探索搾取問題に対する一つの解決策としてオフポリシー翠の自然方策勾配法を提案する.提案手法では,behavior policyと呼ばれる現在の方策とは異なる任意の万乗でサンプリングされた状態と行動の系列から方策勾配を推定できるためごbehaviorpolicyの生成過程を変更することで,探索搾取問題を扱うことができる.
机译:增强型学习方法中是否存在一个称为“探索性利用问题”的问题?这决定了是实施(利用)过去获得的知识的最佳策略,还是寻求可能存在的更好的策略。这是一个要做的问题。在本报告中,我们提出了脱离政策的Midori的自然政策梯度法,作为解决该探索性开发问题的一种方法。在提出的方法中,由于可以从任意能力和操作序列所采样的状态估计策略梯度,这与当前称为行为策略的策略不同,因此可以通过更改行为策略的生成过程来处理搜索开发问题。能够。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号