首页> 外文会议>情報処理学会;情報処理学会全国大会 >非定常環境に適応する認知的満足化価値関数の提案
【24h】

非定常環境に適応する認知的満足化価値関数の提案

机译:适应不稳定环境的认知满意度价值函数的建议

获取原文

摘要

人工知能分野でAlpha-Go[2] は囲碁において人間以上の成績を残して注目を集めたが、このモデルで用いられた技術は深層強化学習と呼ばれる強化学習の一種である。強化学習において探索空間が膨大だと最適な行動系列を現実的な時間で学習することが困難となる。そこで高橋らはハーバート・サイモンが提唱した限定合理性に着目し、基準を満たすことを目的とした戦略を満足化と呼び研究を行なっている[1]。特に、強化学習に適用可能な満足化のモデルを提案し、多腕バンディット問題においてUCB1-tuned よりも早く学習できることが示された[1]。本研究では、高橋らが提案した満足化価値関数RS をもとに非定常環境において有用なアルゴリズムを提案し、より実用的な満足化方策の実現を目指す。そして提案アルゴリズムの性能を評価するために非定常環境を想定した多腕バンディットシミュレーションを行い、提案したアルゴリズムの有用性を示す。
机译:在人工智能领域,Go中的Alpha-Go [2]比人类还多 以上结果吸引了人们的注意,但已在该模型中使用 所使用的技术是一种强化学习,称为深度强化学习。 是。强化学习中搜索空间巨大时的最佳选择 很难在现实的时间内学习行为顺序。 因此,高桥等人提倡赫伯特·西蒙(Herbert Simon)发行限量版。 着眼于理性,旨在满足标准的策略 我们正在进行名为满意度的研究[1]。特别是强化学习 提出可以应用于多武装匪徒的满意度模型 可以比UCB1更快地学习问题 显示[1]。在这项研究中,高桥等人提出的满意度。 基于值函数RS在不稳定的环境中很有用 提出“乐高主义”并实现更实际的满意度措施 它旨在。并评估了所提出算法的性能 假设环境不稳定的多武装土匪模拟 所提算法的实用性 如图所示。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号