首页> 外文期刊>電子情報通信学会論文誌 >部分観測下での最悪ケースに基づくスーパバイザの強化学習
【24h】

部分観測下での最悪ケースに基づくスーパバイザの強化学習

机译:部分观察下基于最坏情况的主管强化学习

获取原文
获取原文并翻译 | 示例
获取外文期刊封面目录资料

摘要

スーパバイザ制御では,スーパバイザと呼ばれる制御器が離散事象システムに対して,生起を許可する事象の集合(制御パターン)を指定する.筆者らはこれまでに,最悪ケースを考慮した最適スーパバイザを強化学習により設計する手法を提案している.しかしながら,現実のシステムにおいては,すべての事象の生起を完全には観測できない・そのため,事象の生起が部分観測の場合も考慮して制御パターンをスーパバイザに学習させる必要がある.本論文では,完全観測の場合において提案した手法を拡張し,部分観測環境において最悪ケースにおける評価値を最大化する制御パターンの与え方をスーパバイザに学習させる手法を提案する.部分観測環境を扱うために,射影関数と不可観測事象列の生起に対する報酬のデータベースを導入する.これらから与えられる情報をもとにスーパバイザは学習を進めていく.このときスーパバイザは,制御対象の現在の状態の推定と評価値の更新を行うことにより,最適な制御パターンの与え方を学習する.計算機実験により,部分観測環境においても最適な制御パターンをスーパバイザが学習できることを示し,提案手法の有効性を示す.
机译:在监督者控制中,称为监督者的控制器指定一组事件(控制模式),这些事件允许在离散事件系统中发生。到目前为止,作者已经提出了一种通过强化学习来考虑最坏情况的最优监督者的设计方法。但是,在实际系统中,不能完全观察到所有事件的发生,因此,有必要考虑到事件的发生是部分观察的情况,让管理者学习控制模式。在本文中,我们扩展了在完全观察的情况下提出的方法,并提出了一种让主管学习在局部观察环境中在最坏的情况下如何给出使评估值最大化的控制模式的方法。为了处理局部观测环境,我们引入了一个关于投影函数和不可观测事件序列发生的奖励的数据库。主管根据这些人员提供的信息进行学习。此时,监督者通过估计被控制对象的当前状态并更新评估值来学习如何给出最佳控制模式。计算机实验表明,即使在局部观测环境下,监督者也可以学习到最优控制模式,并证明了所提方法的有效性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号