強化学習とリカレントネットを用いた並列で柔軟な学習制御システムの枠組み

高津　聡志; 後藤　健太; 柴田　克成

首页> 外文期刊>電子情報通信学会技術研究報告 >強化学習とリカレントネットを用いた並列で柔軟な学習制御システムの枠組み

【24h】

強化学習とリカレントネットを用いた並列で柔軟な学習制御システムの枠組み

机译：基于强化学习和递归网络的并行灵活学习控制系统框架

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

筆者らは、センサからモータ（アクチュエータ）までをニューラルネットでつなぎ、強化学習で学習することで、自律的、合目的的にさまざまな機能が並列かつ調和的に創発すると考えている。近年、強化学習とニューラルネットを用いた柔軟な学習制御システムが提案されているが、通常、学習制御部分がすべての処理を担うのではなく、柔軟な学習部とは別にフィードバック制御部などの柔軟性の低い部分が存在している。本稿では、センサからモータまでをリカレントニューラルネットで直接つなぎ、それを強化学習で学習させることで、フィードバック制御の成分を含めたさまざまな要素を並列に、かつ必要に応じて柔軟に考慮した制御を学習する能力を持つことを主張する。そして、簡単な、投げ上げ物体の捕獲問題において、リカレントネットを用いることによる文脈を考慮した行動生成とともに、-定の外力に対する適応能力、ランダムな外力に対する補償能力も学習によって獲得されることを示した。%The authors think that constructing the whole process from sensors to motors by a neural network and learning it by reinforcement learning enable to realize autonomous, purposive, harmonious and parallel function emergence. Recently, some flexible learning systems using a neural network and reinforcement learning have been proposed. However, the learning module does not usually process the whole, but there exists some inflexible module other than the flexible learning module. In this paper, a recurrent neural network connects sensors and motors directly, and is trained by reinforcement learning. The authors claim that the system has the ability to learn the control considering various factors flexibly and in parallel according to necessity. In a simulated thrown-up-ball catching task, it is shown that adaptability to a constant external force and compensation of random external forces together with the generation of context-considered behaviors due to the use of a recurrent network emerge through learning.

机译：作者认为，通过将传感器连接到具有神经网络的电动机（执行器）并通过强化学习来学习，各种功能会自动，有目的地并行，和谐地出现。近年来，已经提出了使用强化学习和神经网络的柔性学习控制系统，但是通常，学习控制部分不处理所有处理，并且与柔性学习部分分开地设置诸如反馈控制部分的柔性控制部分。有一部分是低性生活。在本文中，通过使用递归神经网络将传感器直接连接到电动机并通过强化学习对其进行学习，可以并行控制包括反馈控制组件在内的各种元件，并根据需要灵活地进行考虑。坚持有学习能力。此外，我们证明，在捕获投掷对象的简单问题中，以及通过使用递归网络生成基于上下文的动作，还可以获得对恒定外力的适应能力和对随机外力的补偿能力。它是％作者认为，通过神经网络构建从传感器到电机的整个过程，并通过强化学习进行学习，可以实现自主，有目的，和谐和并行的功能出现，最近，一些使用神经网络和强化学习的灵活学习系统已经有了但是，学习模块通常不处理整个模块，但是除了柔性学习模块之外，还存在一些非柔性模块。本文采用递归神经网络直接连接传感器和电机，并通过强化学习对其进行训练。作者声称该系统具有根据需要灵活，并行地学习各种因素的控制能力。在模拟的抛球接球任务中，该系统显示出对恒定外力的适应性和对随机外力的补偿。以及由于使用循环网络em而产生的上下文相关行为通过学习合并。

著录项

来源
《電子情報通信学会技術研究報告》 |2010年第461期|p.155-160|共6页
作者
高津　聡志; 後藤　健太; 柴田　克成;
展开▼
作者单位

大分大学;

大分大学;

大分大学;

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类
关键词
リカレントニューラルネットワーク; 強化学習; フィードバック制御; フィードフォワード制御;

机译：递归神经网络;强化学习;反馈控制;前馈控制;

相似文献

外文文献
中文文献
专利

1. 強化学習とリカレントネットを用いた並列で柔軟な学習制御システムの枠組み [J] . 高津聡志, 後藤健太, 柴田克成電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing . 2009,第461期

机译：基于强化学习和递归网络的并行灵活学习控制系统框架
2. 強化学習とリカレントネットを用いた並列で柔軟な学習制御システムの枠組み [J] . 高津聡志, 後藤健太, 柴田克成電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing . 2009,第461期

机译：柔性学习控制系统框架与钢筋学习和经常性网并行
3. NTTドコモは，2015年4 月28日の決算発表時に「中期目標に向けた新たな取り組み」と題して新たな事業ビジョンを発表しました．キーワードは「競争」から「協創」です．パートナーの皆様が保有する強みとドコモの強み（各種のビジネスアセット）を組み合わせて新たな価値を一緒に創造（協創）していきたいという思いです．この取り組みをドコモの頭文字をとって「+d（プラスディー）」と名付けました．本稿では，ドコモの「+d」の具体的な取り組みについて紹介します．本記事は，2016年2 月18～19日に開催された「NTT R&Dフォーラム2016」ワークショップでの講演を基に構成したものです． [J] . 阿佐美弘恭 NTT技術ジャーナル . 2016,第4期

机译：NTT DOCOMO宣布了2015年4月28日公布时题为“中期目标的新努力的新商业愿景。关键词是“竞争”的“合作”。我想我想结合合作伙伴的力量和DoCoMo（各种商业资产）的力量，并共同创造一个新价值。这项倡议被称为Docomo的首字母，并命名为“+ D（Plasdee）”。本文介绍了Docomo“+ D”的具体举措。本文基于2016年2月18日至196年2月18日至19日举行的“NTT研发论坛2016年”研讨会的讲座。
4. 組織学習と状況のクラスタリングを導入した状況変化に適応可能なマルチエージェント強化学習システム [C] . 舘山　武史システム研究会 . 2016

机译：通过引入组织学习和情境聚类可以适应不断变化的情况的多主体强化学习系统。
5. 組織業績に貢献するように従業員の知識や経験を生かす管理会計システムの利用方法のレビュー : イネーブリング?コントロールを分析枠組みとした日本企業の管理会計システムの利用方法の考察 [D] . 三浦紘嵩 2020

机译：回顾如何使用利用员工的知识和经验对组织绩效做出贡献的管理会计系统：考虑如何将日本公司的管理会计系统与支持框架作为分析框架一起使用
6. 「生活習慣病予防の取り組み」 : 21世紀の新たなストラテジーを目指して(テーマ : 「生活習慣病予防」,県立広島大学開学記念リレーシンポジウム,広島保健福祉学会第6回学術大会記録) [O] . 下方浩史 2006

机译：“努力预防与生活方式有关的疾病”：瞄准21世纪的新战略

強化学習とリカレントネットを用いた並列で柔軟な学習制御システムの枠組み

摘要

著录项

相似文献

相关主题

期刊订阅