首页> 外文期刊>電子情報通信学会技術研究報告 >確率的パラメータを持っ方策関数に対する方策勾配法
【24h】

確率的パラメータを持っ方策関数に対する方策勾配法

机译:具有随机参数的策略功能的策略梯度方法

获取原文
获取原文并翻译 | 示例
           

摘要

Stochastic policy gradient methods are a type of reinforcement learning method, where the parameter of the policy parameter is updated according to the gradient with respect to called policy gradient. In this report, I propose a learning method for a probabilistic model, which generates policy parameters. This learning method is a kind of ensemble learning method, and can handle the "exploration-exploitation problem" by changing the variation of policy parameters. I apply my method to the automatic control of simple dynamical systems, and investigate the perfomance.%強化学習の一種である方策勾配法は,方策関数のパラメータ,すなわち方策パラメータを,方策勾配に基づき更新する手法である.本報告では,方策パラメータを生成する確率モデルに対する学習法を提案する.この方法はアンサンブル学習の一種となっており,方策パラメータの分布の広がりを変えることで探索搾取問題を扱うことができる.提案手法を単純な力学系の制御問題に適用し,その動作を調べた.
机译:随机策略梯度方法是一种强化学习方法,其中策略参数的参数根据称为策略梯度的梯度进行更新。在本报告中,我提出了一种概率模型的学习方法,该方法可生成策略参数这种学习方法是一种整体学习方法,可以通过更改策略参数的变化来处理“探索-开发问题”。我将该方法应用于简单动力系统的自动控制,并研究了性能。%策略梯度法是一种学习方法,是一种基于策略梯度更新策略函数参数(即策略参数)的方法,在本报告中,我们提出了一种用于生成策略参数的随机模型的学习方法。该方法是一种整体学习方法,可以通过改变策略参数分布的分布范围来解决搜索开发问题,并将该方法应用于简单动力系统的控制问题,并进行了研究。 。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号