首页> 外文会议>SICE Symposium on Decentralized Autonomous Systems >構造的プラント変動による最適性の原理の破れ
【24h】

構造的プラント変動による最適性の原理の破れ

机译:由于结构植物波动而导致的最优性原则

获取原文

摘要

原問題に最も近い,状態平均J値を用いる強化学習では,方策の評価値を変動プラント集合において全状態に対して唯一設定する.この間題は,定義された評価値を最小化する非線形計画問題で,解を求めることは容易ではない.そこで,平均プラントに対する最適方策や,二人零和ゲームで得られる方策など,少ない計算で求められる方策を初期方策とし,プラント集合に対して有効な方策となるように改善していくアルゴリズムを提案する.これらのアルゴリズムにより,最適とは限らないが,少ない計算量で実現可能な方策を得ることができる.本稿では,2.で標準的な強化学習問題について述べ,3.で変動を考慮した強化学習問題を定義し,このとき最適性の原理が破れることを示す.4.では,いくつかの緩和問題を定義し,その解法を示す.5.で簡単な問題を用いて最適性の原理が破れていることを確かめ,迷路問題にそれぞれの解法を適用するととで,提案手法の有効性を示す最後に6.を結論とする.
机译:在加强最接近原始问题的学习中,使用平均J值的加固学习仅针对波动设备集中的所有状态设置。通过最小化定义的评估值的非线性规划问题,该过程不易解决解决方案。因此,我们提出了一种算法来改善小型计算所需的措施,例如平均工厂的最佳措施,以及由两人竹比赛获得的初始策略所获得的措施。这些算法不一定是最佳的,而是可以获得可以以较少的计算复杂性实现的措施。在本文中,标准标准增强学习问题,3。考虑波动,定义增强学习问题,然后表明最优性的原理可以被破坏。四。然后,定义了一些放松问题并显示了解决方案。五。此外,由于使用简单的问题和将每个解决方案应用于迷宫问题的原则,因此6表示提出的方法的有效性。结论是为了得出结论。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号