首页> 外文会议>情報処理学会;情報処理学会全国大会 >畳み込みニューラルネットワークを用いたProfit Sharing: ボルツマン選択法による行動選択
【24h】

畳み込みニューラルネットワークを用いたProfit Sharing: ボルツマン選択法による行動選択

机译:使用卷积神经网络进行利润共享:通过玻尔兹曼选择方法进行的行动选择

获取原文

摘要

近年、強化学習と深層学習を組み合わせた手法である深層強化学習が注目されており、多くの研究が行われている。深層強化学習の代表的な手法であるDeepQ-Networkは、畳み込みニューラルネットワークとQ Learningを組み合わせた手法であり、様々なゲームに対して実験を行い、人間と同程度かそれ以上のスコアが獲得できるように学習が行えることが確認されている。また、Q Learning 以外の手法を用いた深層強化学習として、畳み込みニューラルネットワークとProt Sharingを組み合わせた手法が提案されている。この手法では、文献[5], [6] においてAtari2600のいくつかのゲームにおいてDeep Q-Network よりも高いスコアが獲得できるように学習が行えることが確認されている。しかしながら、いずれの手法でも適切に学習が行えないゲームも存在する。これは、行動選択に"-greedy 法を使っているためであると考えられる。"-greedy 法では、学習が進行し、" の値が小さくなってくると、" の確率でしか行動価値が最大でない行動を選択することができなくなる。そのため、不完全知覚状態のように同じ観測に対して異なる行動を選択する必要があるような問題に対して、適切な行動選択が行えるように学習が行えていないと考えられる。
机译:近年来,这是一种结合强化学习和深度学习的方法。 深度强化学习引起了人们的注意,并且已经进行了许多研究。 它一直。深度学习,这是深度强化学习的一种典型方法 Q-Network是卷积神经网络 它是结合了Q学习和Q学习的方法 尝试游戏,表现得比人类更好或更好 确认可以进行学习,以使得分达到 已经完成。另外,深度学习以外的方法使用Q Learning 用卷积神经网络作为层增强学习 提出了一种结合Prot共享的方法 有。在这种方法中,参考文献[5],[6]中的Atari 2600 在某些游戏中比Deep Q-Network 可以学习以确保获得高分 已通过认证。但是,任何一种方法都是合适的 有些游戏是无法学习的。这是一个动作选择 认为这是因为使用“贪婪方法”作为替代。 到。在“贪婪的方法中,学习会进步”的价值很小。 涉及到的情况下,仅当“ 您将无法选择动作。因此,它是不完整的 为同一观察选择不同的行为,如所有感知状态 针对需要选择的问题进行适当的操作选择 认为没有学习就可以做出选择。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号