パレート報酬を考慮した政策群アーカイブに基づくマルチエージェント強化学習

机译：基于Parietic奖励的政策组归档的多功能钢筋学习

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

多数の強化学習エージェントを有する学習環境の利用に際しては，エージェントの数に応じて多数の報酬を設定することによる報酬の組の増大が考えられる．多数の報酬を設定することは多彩なタスク割り当てを考慮した上で学習結果が得られる利点がある反面，報酬の組の増大によって最適でない政策を獲得する可能性が増大し，さらには最適な政策が単一にならない可能性が高まる．また，いくつかの報酬の組がエージェントの行動を誘引することが局所的な政策を獲得する要因となる．そういった理由から，従来の強化学習のフレームワークのように試行錯誤により一つの価値関数（例えば，Qテーブル）を更新することで「一つ」の政策を獲得する方法では有効な学習結果を得ることが困難である．この問題を解決するために，学習途中で見つけた有望な政策を「複数」記憶して，それを学習中に利用することによって局所的な政策の獲得を避け，大局的な最適政策を獲得するエージェントの構築を行うことを目的とする．有望な政策としてはパレート報酬をもたらす政策を扱い，非パレート最適な政策の獲得を抑制し，同時に複数のパレート最適な政策を獲得できることを検証する．具体的には，多数の報酬の組み合わせのあるマルチステップ４タスク問題という例題に適用し，提案エージェントの有効性を検証する．

机译：为了使用一个学习环境，有大量增强学习剂，一组补偿组可以通过设置根据代理商的数量大量回报的考虑。设置了大量的奖励是获得各种任务分配的优势，同时获得学习结果，获得的政策是不是最优的，由于增加了对补偿的可能性，最好的策略是更有可能是独一无二的。此外，一些奖励集将导致本地政策吸引代理人的行为。由于这些原因，有可能通过由更新一个值的功能（例如，Q表），更新一个值的功能（例如，Q表），以获得有效的学习的结果，如以往的强化学习框架是困难的。为了解决这个问题，“多”支付政策的学习，并通过学习期间使用它避免了收购地方政策的中间发现，掌握全局最优的政策，旨在建立一个代理。作为一个有前途的政策，我们处理带帕累托奖励的政策并抑制非帕累托最佳政策收购，并验证可以同时获得多个顶视最佳政策。具体地，它适用于具有大量补偿组合的多步骤4任务问题的示例，并验证所提出的代理的有效性。

著录项

来源
《知能システムシンポジウム》|2014年|20页|共6页
会议地点
作者
市川嘉裕; 高玉圭樹;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类 TP18-53;
关键词
入库时间 2022-08-21 07:11:45

相似文献

外文文献
中文文献
专利

1. ミニ60年目のサプライズMINI 602019年は、ミニにとって誕生60周年を祝うァニバーサリーィャー。そんな特別な年を記念して、早くも特別限定モデルのMINI 60 Years Editionが本国で発表された。今日まで受け継がれるミニの基本的なパッケージングは、すでに60年前に確立されたもの。ミニの生みの親であるサ!ァレック•イシゴニスは、ミニマムなボディサイズと大人4人が快適に乗れる室内空間を両立させるため、エンジンをフロントに横置きして前輪駆動とするアイデァを考案。今日のコンパクトカ-の公式をつくり上げた。さらに走りの素性の良さに着目したジョン•ク-パ-が、ミニにチュ-ニングを施したミニ•ク-パ-を製作。軽量な車体と俊敏なハンドリン [J] . ニューミニ·スタイルマガジン/New Mini Style Magazine . 2019,第JUNa期

机译：Mini 60th Surprise MINI 60 2019是MINI的微型周年庆典。为了纪念这一特殊的年份，特别宣布了限量版MINI 60 Years Edition。传到今天的迷你的基本包装是60年前建立的。 Mini的创造者Sarek•Isigonis设计了一种想法，其中发动机水平放置在前轮上以驱动前轮，以实现最小的车身尺寸和可让四名成年人舒适乘坐的室内空间。创建了当今紧凑型汽车的公式。此外，约翰·库珀（John Cooper）着眼于出色的行驶特性，并制作了带有微调的迷你双座轿跑车。轻巧的机身和敏捷的操控
2. ミニ60年目のサプライズMINI 602019年は、ミニにとって誕生60周年を祝うァニバーサリーィャー。そhな特別な年を記念して、早くも特別限定モデルのMINI 60 Years Editionが本国で発表された。今日まで受け継がれるミニの基本的なパッケージングは、すでに60年前に確立されたもの。ミニの生みの親であるサ!ァレック•イシゴニスは、ミニマムなボディサイズと大人4人が快適に乗れる室内空間を両立させるため、エンジンをフロントに横置きして前輪駆動とするアイデァを考案。今日のコンパクトカ-の公式をつくり上げた。さらに走りの素性の良さに着目したジョン•ク-パ-が、ミニにチュ-ニングを施したミニ•ク-パ-を製作。軽量な車体と俊敏なハンドリン [J] . ニューミニ·スタイルマガジン/New Mini Style Magazine . 2019,第Juna期

机译：迷你迷你60在迷你60年代迷你60年来庆祝迷你60周年。在纪念特殊年份，迷你60年版特殊有限模式在其本国宣布。迄今为止迄今为止的迷你的基本包装已经成立于60年前。由于它是迷你的父母的父母，iSigonis是一个最小的体型和四个成年人，可以与房间空间兼容，在那里可以舒适地进行，发动机压下前轮驱动。我创造了今天的紧凑型凯的官员。此外，John-K-PA-PY-PE-PA-PA-PEREEEDEDEDEDOSEDOVERED。轻型车身和敏捷Handlin
3. OPEC総会コミュニケ（仮訳）石油輸出国機構第163回（定例）総会は、総会議長代行のリビアの石油·ガス大臣で代表団長であるアブドゥル·バリ·アリ·アル·アローシ博士閣下のもと、2013年5月31日にオーストリア·ウィーンで開催された。総会はぺドロ·メリザルデ·パヴオ閣下、ムスタフア·アル·シヤマリ閣下、スハイル·モハメド·アル·マズルーイ閣下が、それぞれエクアドルの非再生可能天然資源大臣、クウェートの石油大臣代行、UAEのエネルギー大臣に任命されたことを祝福するとともに、彼らの前任者であるウイルソン·パストール·モリス閣下、ハニ·アブドゥラジズ·ハツサン閣下、モハメド·ビン·ダーン·アル·ハムリ閣下が機構に対して行った功績に謝辞を表明した。 [J] . オイル·リポ－ト Group オイル·リポ－ト . 2013,第1606期

机译：欧佩克大会公报石油输出国组织第163届大会在阿卜杜勒·巴厘·阿里·阿尔·阿罗希（Abdul Bali Ali Al Aroshi）博士的领导下，阿卜杜勒·巴厘·阿里·阿尔·阿罗希（Abdul Bali Ali Al Aroshi）担任大会代理主席兼利比亚石油和天然气部长代表团团长。它于2013年5月31日在奥地利维也纳举行。在大会上，佩德罗·梅利扎德·帕沃uo下，穆斯塔瓦·西亚马里Ma下和苏哈伊尔·穆罕默德·马祖鲁伊Ma下分别被任命为厄瓜多尔不可再生自然资源部长，科威特石油代理部长和阿联酋能源部长。恭喜并感谢他们的前任威尔逊Ma下牧师莫里斯His下，哈尼·阿卜杜拉齐兹·哈桑san下和穆罕默德·本·达安·哈姆里je下在联合国的工作。做到了。
4. パレート報酬を考慮した政策群アーカイブに基づくマルチエージェント強化学習 [C] . 市川嘉裕, 高玉圭樹知能システムシンポジウム . 2014

机译：基于Parietic奖励的政策组归档的多功能钢筋学习
5. 回転子構造に起因した非対称性を考慮したハイブリッド界磁コンシクエントポール型アキシャルギャップモータの設計手法に関する研究 [D] . 小川, 徹 2019

机译：考虑转子结构不对称的混合磁场后极型轴向间隙电动机的设计方法研究
6. 予期せぬブレーキおよび車線変更における車両間スペースを考慮したセルラーオートマトンに基づく交通流シミュレーション [O] . Sentinuwo Steven Ray 2013

机译：基于细胞自动机的，考虑到非预期制动和换道时的车辆间距的交通流模拟

パレート報酬を考慮した政策群アーカイブに基づくマルチエージェント強化学習

摘要

著录项

相似文献

相关主题

期刊订阅