状態の複数の抽象化による方策こう配法の高速化: トンネル状の障害物が存在する追跡問題への適用

今井　悟士; 五十嵐治一; 石原　聖司

首页> 外文期刊>電子情報通信学会論文誌 >状態の複数の抽象化による方策こう配法の高速化: トンネル状の障害物が存在する追跡問題への適用

【24h】

状態の複数の抽象化による方策こう配法の高速化: トンネル状の障害物が存在する追跡問題への適用

机译：加速具有多个状态抽象的策略梯度：在跟踪具有隧道状障碍物的问题中的应用

获取原文

获取原文并翻译 | 示例

获取外文期刊封面封底 >>

开具论文收录证明 >>

文献代查 >>

团队文献服务 >>

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

マルチエージェントシステムにおける強化学習にはエージェント数の増加に伴い状態数が著しく増加する問題があり，現実的な計算資源の範囲内で学習を行うには環境の状態表現を工夫する必要がある.本論文では，複数の抽象化された状態表現に基づく状態・行動ルールを統合することにより，方策こう配法による強化学習の高速化を図った.この統合は方策中の目的関数を各抽象化空間内でのルール重みの和で定義することにより容易に実現できる.提案手法の有効性を検証するために，自律分散的なマルチエージェント環境の標準的な問題として知られている追跡問題への適用を試みた.本論文で取り上げた追跡問題にはトンネル状の静止障害物が加えられている.したがって，トンネル内で獲物を捕獲するには獲物をトンネル内へ追い込んだ後，複数ハンターが両側から挟撃するという協調行動の学習が必要となる.このような難しい間敷こ対しても本手法により学習速度が向上し，捕獲までのステップ数が短縮されることをシミュレーション実験で示した.

机译：在多智能体系统中的强化学习存在以下问题：随着智能体的数量增加，状态的数量显着增加，并且有必要设计环境的状态表示以便在现实的计算资源的范围内进行学习。在本文中，我们尝试通过基于多个抽象状态表达式的状态和动作规则相集成的策略梯度方法来加速强化学习。为了验证所提出方法的有效性，我们将其应用于在分布式分布式多主体环境中称为标准问题的跟踪问题。本文讨论的跟踪问题增加了一个隧道状的固定障碍物，因此，为了捕获隧道中的猎物，将猎物驱赶入隧道后，两侧会夹住多个猎人。仿真实验表明，即使存在如此困难的差距，该方法也可以提高学习速度并缩短捕获步骤。

著录项

来源
《電子情報通信学会論文誌》 |2011年第6期|p.968-976|共9页
作者
今井　悟士; 五十嵐治一; 石原　聖司;
展开▼
作者单位

芝浦工業大学工学瓢東京都;

芝浦工業大学工学瓢東京都;

近畿大学工学部;

東広島市;

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类
关键词
マルチエージェントシステム; 追跡問題; 強化学習; 方策こう配法; 情報統合;

机译：多主体系统;跟踪问题;强化学习;策略梯度法;信息集成;

相似文献

外文文献
中文文献
专利

1. 状態の複数の抽象化による方策こう配法の高速化ートンネル状の障害物が存在する追跡問題への適用― [J] . 今井悟士, 五十嵐治一, 石原聖司電子情報通信学会論文誌, D. 情報·システム . 2011,第6期

机译：通过状态的多种抽象来进行测量加速梯度-适用于跟踪具有隧道状障碍物的问题-
2. 状態の複数の抽象化による方策こう配法の高速化ートンネル状の障害物が存在する追跡問題への適用― [J] . 今井悟士, 五十嵐治一, 石原聖司電子情報通信学会論文誌, D. 情報·システム . 2011,第6期

机译：州多种抽象：在高速吨线观测中跟踪问题的应用。
3. 韓国スマ木メー力ー中国製の有機EL調達コスト低減へ2元化図る中国製の有機ELパネルが韓国メーカーに本格採用されようとしている。韓国メーカーは、スマートフォン(スマホ)の生産コストを下げるのが狙い。世界的にスマホ市場は停滞して，おり、中•低価格モデルの販売が増加する流れにあるため、韓国メーカーは中国製フレキシブル有機ELの採用でコスト低減を進める考え。これにより、今後は系列会社だけから調達する従来の流れが崩れそうだ。 [J] . 半導体産業新聞 . 2019,第2372期

机译：韩国智能手机的力量-中国的有机EL面板，旨在降低中国有机EL的采购成本，将被韩国制造商采用。韩国制造商旨在降低智能手机（smartphone）的生产成本。由于全球智能手机市场停滞不前，中低价位型号的销售在增长，韩国制造商打算通过采用中国制造的柔性OLED来降低成本。这将仅干扰从关联公司进行的常规采购流程。
4. 電磁シールド面における複数箇所からの漏洩による遮へい性能への影響度に関する研究その1 ２箇所のスリット状欠損がある場合 [C] . 吉野涼二, 三枝健二日本建築学会;日本建築学会大会 . 2017

机译：缝隙状缺陷为2个的情况下的电磁波屏蔽部1的多点泄漏对屏蔽性能的影响程度的研究
5. 肝機能障害の評価法とその障害機序に関する研究; ヒト肝ミトコンドリアの日内代謝変動に基づく肝機能評価及び動物モデルを用いた肝ミトコンドリア障害機序 [D] . Iwata, Shingo 1993

机译：肝功能障碍评估方法及其机制的研究；基于人肝线粒体每日代谢变化和肝线粒体损伤机制的动物模型对肝功能的评估
6. 多自由度Hamilton系のエネルギー緩和過程に見られる間欠的ボトルネックと「内部状態」(複雑な多谷ポテンシャルエネルギー面上で生起する動力学的諸問題-力学的決定性と統計性の中間領域を探る(第2回)-,研究会報告) [O] . 森田英俊, 金子邦彦 2002

机译：多自由度哈密顿系统能量弛豫过程中的间歇性瓶颈和“内部状态” （第二次会议，研究组的报告）

状態の複数の抽象化による方策こう配法の高速化: トンネル状の障害物が存在する追跡問題への適用

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅