首页> 外文期刊>電子情報通信学会技術研究報告 >強化学習とリカレントネットを用いた並列で柔軟な学習制御システムの枠組み
【24h】

強化学習とリカレントネットを用いた並列で柔軟な学習制御システムの枠組み

机译:基于强化学习和递归网络的并行灵活学习控制系统框架

获取原文
获取原文并翻译 | 示例
           

摘要

筆者らは、センサからモータ(アクチュエータ)までをニューラルネットでつなぎ、強化学習で学習することで、自律的、合目的的にさまざまな機能が並列かつ調和的に創発すると考えている。近年、強化学習とニューラルネットを用いた柔軟な学習制御システムが提案されているが、通常、学習制御部分がすべての処理を担うのではなく、柔軟な学習部とは別にフィードバック制御部などの柔軟性の低い部分が存在している。本稿では、センサからモータまでをリカレントニューラルネットで直接つなぎ、それを強化学習で学習させることで、フィードバック制御の成分を含めたさまざまな要素を並列に、かつ必要に応じて柔軟に考慮した制御を学習する能力を持つことを主張する。そして、簡単な、投げ上げ物体の捕獲問題において、リカレントネットを用いることによる文脈を考慮した行動生成とともに、-定の外力に対する適応能力、ランダムな外力に対する補償能力も学習によって獲得されることを示した。%The authors think that constructing the whole process from sensors to motors by a neural network and learning it by reinforcement learning enable to realize autonomous, purposive, harmonious and parallel function emergence. Recently, some flexible learning systems using a neural network and reinforcement learning have been proposed. However, the learning module does not usually process the whole, but there exists some inflexible module other than the flexible learning module. In this paper, a recurrent neural network connects sensors and motors directly, and is trained by reinforcement learning. The authors claim that the system has the ability to learn the control considering various factors flexibly and in parallel according to necessity. In a simulated thrown-up-ball catching task, it is shown that adaptability to a constant external force and compensation of random external forces together with the generation of context-considered behaviors due to the use of a recurrent network emerge through learning.
机译:作者认为,通过将传感器连接到具有神经网络的电动机(执行器)并通过强化学习来学习,各种功能会自动,有目的地并行,和谐地出现。近年来,已经提出了使用强化学习和神经网络的柔性学习控制系统,但是通常,学习控制部分不处理所有处理,并且与柔性学习部分分开地设置诸如反馈控制部分的柔性控制部分。有一部分是低性生活。在本文中,通过使用递归神经网络将传感器直接连接到电动机并通过强化学习对其进行学习,可以并行控制包括反馈控制组件在内的各种元件,并根据需要灵活地进行考虑。坚持有学习能力。此外,我们证明,在捕获投掷对象的简单问题中,以及通过使用递归网络生成基于上下文的动作,还可以获得对恒定外力的适应能力和对随机外力的补偿能力。它是%作者认为,通过神经网络构建从传感器到电机的整个过程,并通过强化学习进行学习,可以实现自主,有目的,和谐和并行的功能出现,最近,一些使用神经网络和强化学习的灵活学习系统已经有了但是,学习模块通常不处理整个模块,但是除了柔性学习模块之外,还存在一些非柔性模块。本文采用递归神经网络直接连接传感器和电机,并通过强化学习对其进行训练。作者声称该系统具有根据需要灵活,并行地学习各种因素的控制能力。在模拟的抛球接球任务中,该系统显示出对恒定外力的适应性和对随机外力的补偿。以及由于使用循环网络em而产生的上下文相关行为通过学习合并。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号