Ramadge and Wonham proposed the supervisory control, which is a framework for logical control of discrete event systems. However, in the ordinary supervisory control, the costs for occurence and disabling of events have not been considered.rnThis paper proposes a synthesis method of the supervisor based on the worst-case behavior of discrete event systems. We introduce the new value functions for the assigned control patterns. The new value functions are not based on the expected total rewards, but based on the most undesirable event ocurrence in the assigned control pattern. In the proposed method, the supervisor learns how to assign the control pattern based on reinforcement learning so as to maximize the value functions. We show the efficiency of the proposed method by computer simulation.%Ramadge とWonham によって提案されたスーパバイザ制御は,離散事象システムに対する論理的な制御の枠組みであった.これに対し,コストをも考慮した最適スーパバイザ制御についての研究も行われている.本報告では,スーパバイザが提示する制御パターンに対して新たな評価関数を導入する.提示する制御パターンに対しての期待報酬に基づき評価値を定めるのではなく,スー/くパイザが許容した制御パターンの中で,最も望ましくな い振る舞いを離散事象システムが選択したという最悪ケースに基づいた評価値を用いる.強化学習によってスーパバ イザが最悪ケースにおける評価値を最大とする制御パターンを学習する手法を提案する.また,計算機実験において, 最適な制御パターンを学習することを示し,提案手法の有効性を示す.
展开▼