畳み込みニューラルネットワークを用いたProfit Sharing: ボルツマン選択法による行動選択

机译：使用卷积神经网络进行利润共享：通过玻尔兹曼选择方法进行的行动选择

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

近年、強化学習と深層学習を組み合わせた手法である深層強化学習が注目されており、多くの研究が行われている。深層強化学習の代表的な手法であるDeepQ-Networkは、畳み込みニューラルネットワークとQ Learningを組み合わせた手法であり、様々なゲームに対して実験を行い、人間と同程度かそれ以上のスコアが獲得できるように学習が行えることが確認されている。また、Q Learning 以外の手法を用いた深層強化学習として、畳み込みニューラルネットワークとProt Sharingを組み合わせた手法が提案されている。この手法では、文献[5], [6] においてAtari2600のいくつかのゲームにおいてDeep Q-Network よりも高いスコアが獲得できるように学習が行えることが確認されている。しかしながら、いずれの手法でも適切に学習が行えないゲームも存在する。これは、行動選択に"-greedy 法を使っているためであると考えられる。"-greedy 法では、学習が進行し、" の値が小さくなってくると、" の確率でしか行動価値が最大でない行動を選択することができなくなる。そのため、不完全知覚状態のように同じ観測に対して異なる行動を選択する必要があるような問題に対して、適切な行動選択が行えるように学習が行えていないと考えられる。

机译：近年来，这是一种结合强化学习和深度学习的方法。深度强化学习引起了人们的注意，并且已经进行了许多研究。它一直。深度学习，这是深度强化学习的一种典型方法 Q-Network是卷积神经网络它是结合了Q学习和Q学习的方法尝试游戏，表现得比人类更好或更好确认可以进行学习，以使得分达到已经完成。另外，深度学习以外的方法使用Q Learning 用卷积神经网络作为层增强学习提出了一种结合Prot共享的方法有。在这种方法中，参考文献[5]，[6]中的Atari 2600 在某些游戏中比Deep Q-Network 可以学习以确保获得高分已通过认证。但是，任何一种方法都是合适的有些游戏是无法学习的。这是一个动作选择认为这是因为使用“贪婪方法”作为替代。到。在“贪婪的方法中，学习会进步”的价值很小。涉及到的情况下，仅当“ 您将无法选择动作。因此，它是不完整的为同一观察选择不同的行为，如所有感知状态针对需要选择的问题进行适当的操作选择认为没有学习就可以做出选择。

著录项

来源
《情報処理学会;情報処理学会全国大会》|2020年|2.569-2.570|共2页
会议地点
作者
前田拓実; 長名優子;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类
关键词
入库时间 2022-08-26 13:49:58

相似文献

外文文献
中文文献
专利

1. 複合的人工ニューラルネットワーク: 教師なし学習を用いた動的制御における選択型ニューラルネットワークアンサンブル [J] . 大江亮介, 鈴木育男, 山本雅人, 精密工学会誌 . 2013,第6期

机译：复杂的人工神经网络：使用无监督学习的动态控制中的选择性神经网络集合
2. エンタングルメント·エントロピーに基づく畳み込みニューラルネットワークと主成分分析に基づく畳み込みニューラルネットワーク [J] . 江口脩, 田中勝電子情報通信学会技術研究報告. パターン認識·メディア理解. Pattern Recognition and Media Understanding . 2017,第391期

机译：基于缠绕神经网络的卷积神经网络和基于缠结熵的主成分分析
3. 畳み込みニューラルネットワークと敵対的生成ネットワークを用いた深層学習による地中レーダ画像の物体識別とイメージング [J] . 園田　潤, 木本　智幸土と基礎 . 2019,第6期

机译：利用卷积神经网络和对抗生成网络进行深度学习的地下雷达图像目标识别与成像
4. 畳み込みニューラルネットワークの特徴マップ選択によるトラッキング [C] . 山田真生, 渡辺崇情報処理学会;情報処理学会全国大会 . 2017

机译：卷积神经网络的特征图选择跟踪
5. 畳み込みニューラルネットワークによるガラスの映り込み除去と反射成分推定 [D] . 佐藤良亮 2020

机译：卷积神经网络的玻璃反射去除与反射分量估算
6. ラット前脳基底部コリン作動性ニューロンの選択的破壊による新しいアルツハイマー氏病モデル動物作製の試み [O] . 工藤幸司, クドウユキツカ 2017

机译：试图通过选择性破坏大鼠基底前脑胆碱能神经元来构建阿尔茨海默氏病的新动物模型

畳み込みニューラルネットワークを用いたProfit Sharing: ボルツマン選択法による行動選択

摘要

著录项

相似文献

相关主题

期刊订阅