首页> 外文期刊>電子情報通信学会論文誌, A. 基礎·境界, A >profit Sharingの計算量を改良するアルゴリズムの提案
【24h】

profit Sharingの計算量を改良するアルゴリズムの提案

机译:提出一种提高利润分享计算复杂度的算法

获取原文
获取原文并翻译 | 示例
获取外文期刊封面目录资料

摘要

強化学習のアルゴリズムの一つに,Profit Sharing(PS)がある.従来のPS(Off-PS)はオフライ ン更新型であり,選択した状態行動対をすべて記憶する必要がある.そのため,ゴールにたどり着くまでの道の りが非常に長く複雑な場合,使用するメモリ量に上限がなくなってしまう欠点がある.それを改善したのが,オ ンライン更新型PS(On-PS)である.このOn-PSでは,従来のOff-PSと等価ながら,メモリ量を有限とする ことができる.しかし,計算時間がOff-PSよりもはるかに大きくなってしまうという問題がある・そこで,本 研究ではOff-PSと等価ながらメモリ量を有限にし,なおかつOn-PSよりも計算時間を大幅に削減する手法を 提案する.また,提案手法の計算量を他の2手法と理論的な比較を行い,更に具体例としてAcrobot Problem に実装することによって,提案手法の有効性を示す.
机译:强化学习的算法之一是利润分享 (PS)。 常规 PS (Off-PS) 是一种飞行外更新类型,需要记住所有选定的状态行为对。 因此,如果通往目标的道路非常漫长和复杂,则缺点是使用的内存量没有上限。 但是,存在一个问题,即计算时间比Off-PS大得多。 在这项研究中,我们使用了一种与 Off-PS 等效但内存量有限的方法,与 On-PS 相比,计算时间显着缩短。 此外,通过理论上比较所提方法与其他两种方法的计算复杂度,并在Acrobot Problem中作为具体示例实现,证明了所提方法的有效性。

著录项

获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号