確率的パラメータを持っ方策関数に対する方策勾配法

中村　泰

首页> 外文期刊>電子情報通信学会技術研究報告 >確率的パラメータを持っ方策関数に対する方策勾配法

【24h】

確率的パラメータを持っ方策関数に対する方策勾配法

机译：具有随机参数的策略功能的策略梯度方法

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

Stochastic policy gradient methods are a type of reinforcement learning method, where the parameter of the policy parameter is updated according to the gradient with respect to called policy gradient. In this report, I propose a learning method for a probabilistic model, which generates policy parameters. This learning method is a kind of ensemble learning method, and can handle the "exploration-exploitation problem" by changing the variation of policy parameters. I apply my method to the automatic control of simple dynamical systems, and investigate the perfomance.%強化学習の一種である方策勾配法は，方策関数のパラメータ，すなわち方策パラメータを，方策勾配に基づき更新する手法である.本報告では，方策パラメータを生成する確率モデルに対する学習法を提案する．この方法はアンサンブル学習の一種となっており，方策パラメータの分布の広がりを変えることで探索搾取問題を扱うことができる.提案手法を単純な力学系の制御問題に適用し，その動作を調べた．

机译：随机策略梯度方法是一种强化学习方法，其中策略参数的参数根据称为策略梯度的梯度进行更新。在本报告中，我提出了一种概率模型的学习方法，该方法可生成策略参数这种学习方法是一种整体学习方法，可以通过更改策略参数的变化来处理“探索-开发问题”。我将该方法应用于简单动力系统的自动控制，并研究了性能。％策略梯度法是一种学习方法，是一种基于策略梯度更新策略函数参数（即策略参数）的方法，在本报告中，我们提出了一种用于生成策略参数的随机模型的学习方法。该方法是一种整体学习方法，可以通过改变策略参数分布的分布范围来解决搜索开发问题，并将该方法应用于简单动力系统的控制问题，并进行了研究。。

著录项

来源
《電子情報通信学会技術研究報告》 |2008年第542期|p.343-348|共6页
作者
中村　泰;
展开▼
作者单位

大阪大学大学院工学研究科;

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类
关键词
強化学習; 確率的方策勾配法; アンサンブル学習; 探索搾取問題;

机译：强化学习;随机策略梯度法;整体学习;勘探开发问题;

相似文献

外文文献
中文文献
专利

1. 確率的パラメータを持つ方策関数に対する方策勾配法 [J] . 中村泰, Yutaka NAKAMURA 電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing . 2007,第542期

机译：具有随机参数的策略功能的策略梯度方法
2. 確率的パラメータを持つ方策関数に対する方策勾配法 [J] . 中村泰, Yutaka NAKAMURA 電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing . 2007,第542期

机译：具有概率参数的方法函数的措施
3. Gaussian process regressionを用いた確率的方策に対する方策勾配法 [J] . 中村　泰, 石黒　浩電子情報通信学会技術研究報告 . 2012,第279期

机译：基于高斯过程回归的概率策略的策略梯度法
4. 方策勾配法を用いた運動方程式中のパラメータ学習～カーリングにおける事例～ [C] . 五十嵐治一, 石原聖司日本ロボット学会学術講演会 . 2003

机译：使用策略梯度法在运动方程中进行参数学习-卷发情况-
5. 制御システムにおけるドメイン間連携によるサイバー攻撃対策に関する研究 : 拡張ホワイトリストを用いたサイバー攻撃探知 [D] . 小林信博 2019

机译：控制系统中域间协作的网络攻击对策研究：利用扩展白名单的网络攻击检测
6. ピッキング作業における改善方策に関する研究 : 注文データを用いた作業時間の推計及び改善対策間の関係性の分析 [O] . 柯晟劼 2015

机译：采摘工作改进措施研究：利用订单数据估算工作时间，分析改进措施之间的关系

確率的パラメータを持っ方策関数に対する方策勾配法

摘要

著录项

相似文献

相关主题

期刊订阅