選択的不感化ニューラルネットを用いた強化学習の効率化

森田　昌彦; 新保　智之; 蓮尾　高志; 山根　健

首页> 外文期刊>電子情報通信学会技術研究報告 >選択的不感化ニューラルネットを用いた強化学習の効率化

【24h】

選択的不感化ニューラルネットを用いた強化学習の効率化

机译：使用选择性脱敏神经网络提高强化学习的效率

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

強化学習は，状態空間が広いと学習に非常に時間がかかるという深刻な問題を抱えているが，その最大の原因は価値関数を効率的に近似する方法がないことにある．本報告では，選択的不感化ニューラルネットを用いて関数近似器を構成することによってこの問題の解決を図る．本手法を4次元の連続状態空間をもつ台車型倒立振子の安定化制御に適用したところ，学習効率が大幅に向上すると共に制御の安定性も向上することがわかった．このことは，構成した関数近似器が高い汎化能力をもつと共に分解能の点でも優れていることを示している．%Existing reinforcement learning (RL) systems have a serious problem that they require an extremely long time for learning particularly when the state space is continuous and high dimensional. To overcome this problem, we propose a method of using a selective desensitization neural network (SDNN) for approximating the value function. We applied this method to stabilizing control of a cart-type inverted pendulum and found that the efficiency of learning and the stability of control were greatly improved. This result indicates that the SDNN function approximator has high generalization ability as well as good resolution of approximation.

机译：强化学习存在一个严重的问题，即状态空间较宽时需要花费很长时间来学习，但是最大的原因是没有有效地逼近值函数。在本报告中，我们尝试通过使用选择性脱敏神经网络构造函数逼近器来解决此问题。当将该方法应用于具有四维连续状态空间的手推车型倒立摆的稳定控制时，发现学习效率显着提高并且控制稳定性也得到提高。这表明构造的函数逼近器具有高泛化能力并且在分辨率方面是极好的。现有的强化学习（RL）系统存在一个严重的问题，即它们需要非常长的时间来学习，尤其是在状态空间是连续且具有高维的情况下。为克服此问题，我们提出了一种使用选择性脱敏神经网络（SDNN将该方法应用于稳定型小车倒立摆的控制，发现学习效率和控制稳定性得到了极大的提高，结果表明SDNN函数逼近器具有较高的泛化能力。以及良好的近似分辨率。

著录项

来源
《電子情報通信学会技術研究報告》 |2008年第542期|p.355-359|共5页
作者
森田　昌彦; 新保　智之; 蓮尾　高志; 山根　健;
展开▼
作者单位

筑波大学システム情報工学研究科〒305-8573つくば市天王台1-1-1;

筑波大学第三学群工学システム学類〒305-8573 つくば市天王台1-1-1;

筑波大学システム情報工学研究科〒305-8573つくば市天王台1-1-1;

筑波大学システム情報工学研究科〒305-8573つくば市天王台1-1-1;

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类
关键词
非線形関数近似; 選択的不感化; Q学習; 台車型倒立振子;

机译：非线形关数近似;选択的不感化;Q学习;台车型倒立振子;

相似文献

外文文献
中文文献
专利

1. 選択的不感化ニューラルネットを用いた強化学習の効率化 [J] . 森田昌彦, 新保智之, 蓮尾高志, 電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing . 2007,第542期

机译：使用选择性脱敏神经网络的有效强化学习
2. 選択的不感化ニューラルネットを用いた強化学習の効率化 [J] . 森田昌彦, 新保智之, 蓮尾高志, 電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing . 2007,第542期

机译：使用选择性狩猎神经网络升高钢筋学习的效率提高
3. 選択的不感化ニューラルネットを用いた強化学習の価値関数近似 [J] . 新保　智之, 山根　健, 田中　文英, 電子情報通信学会論文誌 . 2010,第6期

机译：使用选择性脱敏神经网络进行强化学习的值函数逼近
4. 選択的不感化ニューラルネットを用いた関数近似器による強化学習 [C] . 新保　智之, 山根　健, 田中　文英, 情報処理学会全国大会 . 2010

机译：使用选择性脱敏神经网络的函数逼近器进行强化学习
5. ニューラルネットワークを用いた適応型発電機制御による電力系統の安定化利用統計を見る [D] . 小林武則 1995

机译：请参见使用神经网络的自适应发电机控制实现电力系统的稳定利用统计
6. 選択的不感化ニューラルネットを用いた連続状態行動空間における強化学習 [O] . 小林高彰, コバヤシタカアキ 2015

机译：使用选择性脱敏神经网络的连续状态动作空间中的强化学习

選択的不感化ニューラルネットを用いた強化学習の効率化

摘要

著录项

相似文献

相关主题

期刊订阅