最悪ケースを考慮した最適スーパバイザの強化学習

梶原　弘治; 山崎　達志

首页> 外文期刊>電子情報通信学会技術研究報告 >最悪ケースを考慮した最適スーパバイザの強化学習

【24h】

最悪ケースを考慮した最適スーパバイザの強化学習

机译：考虑最坏情况的最优主管的强化学习

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

Ramadge and Wonham proposed the supervisory control, which is a framework for logical control of discrete event systems. However, in the ordinary supervisory control, the costs for occurence and disabling of events have not been considered.rnThis paper proposes a synthesis method of the supervisor based on the worst-case behavior of discrete event systems. We introduce the new value functions for the assigned control patterns. The new value functions are not based on the expected total rewards, but based on the most undesirable event ocurrence in the assigned control pattern. In the proposed method, the supervisor learns how to assign the control pattern based on reinforcement learning so as to maximize the value functions. We show the efficiency of the proposed method by computer simulation.%Ramadge とWonham によって提案されたスーパバイザ制御は，離散事象システムに対する論理的な制御の枠組みであった．これに対し，コストをも考慮した最適スーパバイザ制御についての研究も行われている．本報告では，スーパバイザが提示する制御パターンに対して新たな評価関数を導入する．提示する制御パターンに対しての期待報酬に基づき評価値を定めるのではなく，スー／くパイザが許容した制御パターンの中で，最も望ましくない振る舞いを離散事象システムが選択したという最悪ケースに基づいた評価値を用いる．強化学習によってスーパバイザが最悪ケースにおける評価値を最大とする制御パターンを学習する手法を提案する．また，計算機実験において，最適な制御パターンを学習することを示し，提案手法の有効性を示す．

机译：Ramadge和Wonham提出了监督控制，它是离散事件系统的逻辑控制框架，但是，在普通监督控制中，没有考虑事件发生和禁用的成本。基于离散事件系统的最坏情况行为，我们为分配的控制模式引入了新的价值函数，这些新的价值函数不是基于预期的总回报，而是基于分配的控制模式中最不期望的事件发生率。在该方法中，监督者学习了基于强化学习的控制模式分配方法，以最大化价值函数。我们通过计算机仿真证明了该方法的有效性。％Ramadge和Wonham提出的监督者控制为，是离散事件系统的逻辑控制框架。另一方面，还进行了考虑成本的最优监督控制的研究。在此报告中，我们为主管提出的控制模式引入了新的评估功能。代替基于呈现的控制模式的预期奖励来确定评估值，它是基于最坏的情况，即离散事件系统在Sue / Kupaiser允许的控制模式中选择最不希望的行为。使用评估值。我们提出了一种方法，在这种方法中，主管可以通过强化学习来学习在最坏情况下最大化评估值的控制模式。我们还表明，最佳控制模式是在计算机实验中学习的，并且表明了所提方法的有效性。

著录项

来源
《電子情報通信学会技術研究報告》 |2009年第415期|p.45-50|共6页
作者
梶原　弘治; 山崎　達志;
展开▼
作者单位

摂南大学工学部　〒572-8508大阪府寝屋川市池田中町17-8;

摂南大学工学部　〒572-8508大阪府寝屋川市池田中町17-8;

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类
关键词
離散事象システム; スーパバイザ制御; 強化学習;

机译：离散事件系统;主管控制;强化学习;
入库时间 2022-08-18 00:35:13

相似文献

外文文献
中文文献
专利

1. 最悪ケースを考慮した最適スーパバイザの強化学習 [J] . 梶原　弘治, 山崎　達志システム/制御/情報 . 2010,第4期

机译：考虑最坏情况的最优主管的强化学习
2. 最悪ケースを考慮した最適スーパバイザの強化学習 [J] . 梶原弘治, 山崎達志電子情報通信学会技術研究報告. コンカレント工学. Concurrent System Technology . 2008,第415期

机译：考虑最坏情况，增强对最佳主管的学习
3. 最悪ケースを考慮した最適スーパバイザの強化学習 [J] . 梶原弘治, 山崎達志電子情報通信学会技術研究報告. コンカレント工学. Concurrent System Technology . 2008,第415期

机译：考虑最糟糕的情况，最佳主管增强学习
4. 建築物の構造性能の変動を考慮したロバスト最適ダンパー配置その２ロバストネス関数を用いたロバスト最適設計 [C] . 安田圭佑, 藤田皓平, 辻聖晃, 日本建築学会学術講演会;日本建築学会 . 2015

机译：考虑建筑物结构性能变化的稳健最优阻尼器布置第2部分使用稳健性函数进行稳健优化设计
5. メニーコアCPU上での粗粒度タスクへの計算機資源動的割当手法 -完全準同型暗号を用いたクライアント-サーバアプリケーションの平均レイテンシ短縮を目指して- [D] . 鈴木拓也 2020

机译：动态分配计算机资源以在多核CPU上执行粗粒度的任务-具有全同态密码学的客户端-旨在减少服务器应用程序的平均延迟-
6. 出稿スペースを考慮した新聞広告最適化問題　(不確実で動的なシステムへの最適化理論とその展開) [O] . 伊佐田百合子, 井垣伸子, 山川茂孝, 2004

机译：考虑放置空间的报纸广告优化问题（不确定性和动态系统的优化理论及其发展）

最悪ケースを考慮した最適スーパバイザの強化学習

摘要

著录项

相似文献

相关主题

期刊订阅