首页> 外文期刊>電子情報通信学会技術研究報告 >最悪ケースを考慮した最適スーパバイザの強化学習
【24h】

最悪ケースを考慮した最適スーパバイザの強化学習

机译:考虑最坏情况的最优主管的强化学习

获取原文
获取原文并翻译 | 示例
       

摘要

Ramadge and Wonham proposed the supervisory control, which is a framework for logical control of discrete event systems. However, in the ordinary supervisory control, the costs for occurence and disabling of events have not been considered.rnThis paper proposes a synthesis method of the supervisor based on the worst-case behavior of discrete event systems. We introduce the new value functions for the assigned control patterns. The new value functions are not based on the expected total rewards, but based on the most undesirable event ocurrence in the assigned control pattern. In the proposed method, the supervisor learns how to assign the control pattern based on reinforcement learning so as to maximize the value functions. We show the efficiency of the proposed method by computer simulation.%Ramadge とWonham によって提案されたスーパバイザ制御は,離散事象システムに対する論理的な制御の枠組みであった.これに対し,コストをも考慮した最適スーパバイザ制御についての研究も行われている.本報告では,スーパバイザが提示する制御パターンに対して新たな評価関数を導入する.提示する制御パターンに対しての期待報酬に基づき評価値を定めるのではなく,スー/くパイザが許容した制御パターンの中で,最も望ましくな い振る舞いを離散事象システムが選択したという最悪ケースに基づいた評価値を用いる.強化学習によってスーパバ イザが最悪ケースにおける評価値を最大とする制御パターンを学習する手法を提案する.また,計算機実験において, 最適な制御パターンを学習することを示し,提案手法の有効性を示す.
机译:Ramadge和Wonham提出了监督控制,它是离散事件系统的逻辑控制框架,但是,在普通监督控制中,没有考虑事件发生和禁用的成本。基于离散事件系统的最坏情况行为,我们为分配的控制模式引入了新的价值函数,这些新的价值函数不是基于预期的总回报,而是基于分配的控制模式中最不期望的事件发生率。在该方法中,监督者学习了基于强化学习的控制模式分配方法,以最大化价值函数。我们通过计算机仿真证明了该方法的有效性。%Ramadge和Wonham提出的监督者控制为,是离散事件系统的逻辑控制框架。另一方面,还进行了考虑成本的最优监督控制的研究。在此报告中,我们为主管提出的控制模式引入了新的评估功能。代替基于呈现的控制模式的预期奖励来确定评估值,它是基于最坏的情况,即离散事件系统在Sue / Kupaiser允许的控制模式中选择最不希望的行为。使用评估值。我们提出了一种方法,在这种方法中,主管可以通过强化学习来学习在最坏情况下最大化评估值的控制模式。我们还表明,最佳控制模式是在计算机实验中学习的,并且表明了所提方法的有效性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号