重み付けされた複数の正規分布を用いた政策表現最適行動変化に追従できる実時間強化学習と環状ロボットへの適用

木村 元; 荒牧 岳志; 小林 重信; Hajime Kimura; Takeshi Aramaki; Shigenobu Kobayashi

首页> 外文期刊>人工知能学会論文誌 >重み付けされた複数の正規分布を用いた政策表現最適行動変化に追従できる実時間強化学習と環状ロボットへの適用

【24h】

重み付けされた複数の正規分布を用いた政策表現最適行動変化に追従できる実時間強化学習と環状ロボットへの適用

机译：使用多个加权正常分布的策略表示实时增强学习，可以遵循最佳行为改变和应用于环形机器人

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

本論文では，５リンク環状ロボットの移動動作獲得問題を取り上げ，実機による試行錯誤が許容できる実時間で強化学習することを目指す．本学習問題では，１）学習の実時間性，２）状態観測にノイズが存在する環境の扱い，３）最適な行動が学習の進行に伴って変化していく環境の扱い，以上の３点をクリアすることが求められる．そこで本論文では，前述のように連続状態-行動空間を持ち，状態観測にノイズが存在する問題に対し有望な接近法であるactor-critic 法を適用する．しかし，従来のactor-critic による実装では，上記の３つの問題点を同時にクリアすることが困難だった．そこでactor の政策表現を工夫し，上位が離散的，下位が連続的行動選択を行う階層的な構造とする方法を提案する．正規分布をactor の確率的政策とする先行研究のactor-criticでは，有望と思われる探索領域を絞り込hでいくまでの過程に時間がかかり過ぎる．別の先行研究で提案された確率的2 分木による階層的なactor-critic 法では，階層化によって有望と思われる探索領域をすみやかに絞り込hで効率的な学習が行えるが，学習が進むにつれて最適と見積もられる政策や行動が変化する場合には，問題が生じる．本論文の提案手法は，行動空間中で有望と思われる領域を上位層の行動選択で大まかに探索し，さらにその行動を下位層で微調整していくことにより，効率的な学習を行えると同時に動的な環境の変化にも追従することが期待できる．

机译：在本文中，我们的目标是占用5连杆环形机器人的运动运行采集问题，旨在增强试图增强实际设备的试验和误差。在这个学习问题中，1）学习实时，2）处理状态观察中存在噪声的环境，3）处理环境的环境随着学习的进展而变化，以上三点需要清除。因此，在本文中，我们具有如上所述的连续状态 - 动作空间，并应用演员 - 批评方法，这是一个有希望的方法对于状态观察中存在噪声的问题。然而，传统的演员 - 评论家的实施难以同时清除上述三个问题。因此，我们将制定演员的策略表示，并提出一种具有分层结构的方法，即上级离散并随后执行连续行为选择。在演员 - 评论家中，演员的概率政策的先例政策，提交似乎有前途的搜索区域需要太长。在另一个先前研究中提出的概率二分钟树的分层演员 - 评论家方法中，可以通过分层和高效的学习，通过搜索区域进行高效学习，但是如果估计的策略和动作，学习会发生问题是最佳的，估计。本文的提议方法大致通过上层的动作选择来搜索，甚至通过用下层微调动作，可以同时遵循动态环境的变化。

著录项

来源
《人工知能学会論文誌》 |2003年第6期|共9页
作者
木村元; 荒牧岳志; 小林重信; Hajime Kimura; Takeshi Aramaki; Shigenobu Kobayashi;
展开▼
作者单位

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类自动化技术、计算机技术;
关键词
Reinforcement learning; Hierarchical representation; Actor-critic; Robotics;

机译：加强学习;分层表示;演员 - 评论家;机器人学;

相似文献

外文文献
专利

1. 重み付けされた複数の正規分布を用いた政策表現最適行動変化に追従できる実時間強化学習と環状ロボットへの適用 [J] . 木村元, 荒牧岳志, 小林重信, 人工知能学会論文誌 . 2003,第6期

机译：使用多个加权正态分布的策略表达实时优化的学习可以跟踪最佳行为变化并将其应用于循环机器人
2. ミニ60年目のサプライズMINI 602019年は、ミニにとって誕生60周年を祝うァニバーサリーィャー。そんな特別な年を記念して、早くも特別限定モデルのMINI 60 Years Editionが本国で発表された。今日まで受け継がれるミニの基本的なパッケージングは、すでに60年前に確立されたもの。ミニの生みの親であるサ!ァレック•イシゴニスは、ミニマムなボディサイズと大人4人が快適に乗れる室内空間を両立させるため、エンジンをフロントに横置きして前輪駆動とするアイデァを考案。今日のコンパクトカ-の公式をつくり上げた。さらに走りの素性の良さに着目したジョン•ク-パ-が、ミニにチュ-ニングを施したミニ•ク-パ-を製作。軽量な車体と俊敏なハンドリン [J] . ニューミニ·スタイルマガジン/New Mini Style Magazine . 2019,第JUNa期

机译：Mini 60th Surprise MINI 60 2019是MINI的微型周年庆典。为了纪念这一特殊的年份，特别宣布了限量版MINI 60 Years Edition。传到今天的迷你的基本包装是60年前建立的。 Mini的创造者Sarek•Isigonis设计了一种想法，其中发动机水平放置在前轮上以驱动前轮，以实现最小的车身尺寸和可让四名成年人舒适乘坐的室内空间。创建了当今紧凑型汽车的公式。此外，约翰·库珀（John Cooper）着眼于出色的行驶特性，并制作了带有微调的迷你双座轿跑车。轻巧的机身和敏捷的操控
3. ミニ60年目のサプライズMINI 602019年は、ミニにとって誕生60周年を祝うァニバーサリーィャー。そhな特別な年を記念して、早くも特別限定モデルのMINI 60 Years Editionが本国で発表された。今日まで受け継がれるミニの基本的なパッケージングは、すでに60年前に確立されたもの。ミニの生みの親であるサ!ァレック•イシゴニスは、ミニマムなボディサイズと大人4人が快適に乗れる室内空間を両立させるため、エンジンをフロントに横置きして前輪駆動とするアイデァを考案。今日のコンパクトカ-の公式をつくり上げた。さらに走りの素性の良さに着目したジョン•ク-パ-が、ミニにチュ-ニングを施したミニ•ク-パ-を製作。軽量な車体と俊敏なハンドリン [J] . ニューミニ·スタイルマガジン/New Mini Style Magazine . 2019,第Juna期

机译：迷你迷你60在迷你60年代迷你60年来庆祝迷你60周年。在纪念特殊年份，迷你60年版特殊有限模式在其本国宣布。迄今为止迄今为止的迷你的基本包装已经成立于60年前。由于它是迷你的父母的父母，iSigonis是一个最小的体型和四个成年人，可以与房间空间兼容，在那里可以舒适地进行，发动机压下前轮驱动。我创造了今天的紧凑型凯的官员。此外，John-K-PA-PY-PE-PA-PA-PEREEEDEDEDEDOSEDOVERED。轻型车身和敏捷Handlin
4. 強化学習を用いた移動ロボットの自律化に関する研究:一定の間隔で人を追従する行動の獲得に関する検討 [C] . ティーラパップ・パシン, 林原靖男, 上田隆一ロボティクス·メカトロニクス講演会2018 . 2018

机译：使用强化学习的移动机器人自主性研究：定期获得跟从人们行为的习得
5. スクィーズされたコヒーレント状態を用いた時間依存変分法による量子系の半古典的記述 - Berryの位相としてのMaslovの位相のあらわれ [D] . 津江, 保彦 1993

机译：压缩相干态时变分方法的量子系统半经典描述-马斯洛夫出现的贝里相
6. 〔民事手続判例研究〕仮処分命令における保全すべき権利が、本案訴訟の判決において、当該仮処分命令の発令時から存在しなかったものと判断され、このことが事情の変更に当たるとして当該仮処分命令を取り消す旨の決定が確定した場合には、当該仮処分命令を受けた債務者は、その保全執行としてされた間接強制決定に基づき取り立てられた金銭につき、債権者に対して不当利得返還請求をすることができるとした事例損害賠償等請求事件 (最高裁平成20年(受)第224号、平成21年4月24日第二小法廷判決・上告棄却、民集63巻4号765頁、裁時1482号12頁、判時2046号79頁、判タ1299号144頁、金法1874号155頁、金商1338号36頁) [O] . 金炳学 2011

机译：民事诉讼程序案例研究在本案判决书中，从发布临时处分令之时起，就判定不存在保留在临时处分令中的权利，并且由于改变了情况而取消了临时处分令。如果最终确定该决定，则收到临时处置令的债务人可以要求债权人根据作为保护执行而做出的间接强制性决定，退还与所收取款项有关的不当收益。要求损害赔偿的案件（最高法院第224（2008）号（收到）第224号，2009年4月24日，第二小法院的判决/上诉驳回，民述第63卷第4号第765页，第1482号判决）（第12号，第2046、79，J.1299、144，Kinho 1874、155，Kinsho 1338、36）

重み付けされた複数の正規分布を用いた政策表現最適行動変化に追従できる実時間強化学習と環状ロボットへの適用

摘要

著录项

相似文献

相关主题

期刊订阅