首页> 外文期刊>電子情報通信学会技術研究報告 >選択的不感化ニューラルネットを用いた強化学習の効率化
【24h】

選択的不感化ニューラルネットを用いた強化学習の効率化

机译:使用选择性脱敏神经网络提高强化学习的效率

获取原文
获取原文并翻译 | 示例
           

摘要

強化学習は,状態空間が広いと学習に非常に時間がかかるという深刻な問題を抱えているが,その最大の原因は価値関数を効率的に近似する方法がないことにある.本報告では,選択的不感化ニューラルネットを用いて関数近似器を構成することによってこの問題の解決を図る.本手法を4次元の連続状態空間をもつ台車型倒立振子の安定化制御に適用したところ,学習効率が大幅に向上すると共に制御の安定性も向上することがわかった.このことは,構成した関数近似器が高い汎化能力をもつと共に分解能の点でも優れていることを示している.%Existing reinforcement learning (RL) systems have a serious problem that they require an extremely long time for learning particularly when the state space is continuous and high dimensional. To overcome this problem, we propose a method of using a selective desensitization neural network (SDNN) for approximating the value function. We applied this method to stabilizing control of a cart-type inverted pendulum and found that the efficiency of learning and the stability of control were greatly improved. This result indicates that the SDNN function approximator has high generalization ability as well as good resolution of approximation.
机译:强化学习存在一个严重的问题,即状态空间较宽时需要花费很长时间来学习,但是最大的原因是没有有效地逼近值函数。在本报告中,我们尝试通过使用选择性脱敏神经网络构造函数逼近器来解决此问题。当将该方法应用于具有四维连续状态空间的手推车型倒立摆的稳定控制时,发现学习效率显着提高并且控制稳定性也得到提高。这表明构造的函数逼近器具有高泛化能力并且在分辨率方面是极好的。现有的强化学习(RL)系统存在一个严重的问题,即它们需要非常长的时间来学习,尤其是在状态空间是连续且具有高维的情况下。为克服此问题,我们提出了一种使用选择性脱敏神经网络(SDNN将该方法应用于稳定型小车倒立摆的控制,发现学习效率和控制稳定性得到了极大的提高,结果表明SDNN函数逼近器具有较高的泛化能力。以及良好的近似分辨率。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号