首页> 外文期刊>電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing >自然方策勾配法に基づくオフポリシー型強化学習法
【24h】

自然方策勾配法に基づくオフポリシー型強化学習法

机译:基于自然应变梯度法的脱策型强化学习方法

获取原文
获取原文并翻译 | 示例
           

摘要

強化学習法には"探索搾取問題"と呼ばれる問題がある.これは,過去に得た知識の最良の方策を実行(搾取)するか,存在するかも知れないより良い方策を探索するかを決定する問題である.本報告では,この探索搾取問題に対する一つの解決策としてオフポリシー型の自然方策勾配法を提案する.提案手法では,behavior policyと呼ばれる現在の方策とは異なる任意の方策でサンプリングされた状態と行動の系列から方策勾配を推定できるため,behavior policyの生成過程を変更することで,探索搾取問題を扱うことができる.
机译:增强学习法案有一个名为“搜索剥削问题”的问题。这决定了是否执行(利用)过去获得的知识的最佳策略。是问题 在本报告中,我们提出了一个禁止策略类型自然政策梯度方法作为该搜索资源管理器问题的解决方案。 在所提出的方法中,由于可以从系统采样的任何策略中估计了与所谓的当前措施不同于称为行为策略和行为序列的策略来估计测量梯度,我们将通过更改生产过程来处理搜索剥削问题行为政策能够。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号