基于深度强化学习在游戏上的应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

对图像进行识别并做出判断输出相应的动作或者决策对很多领域有重要的意义，特别是在汽车的无人驾驶，医疗机器人等方面。深度学习作为一种无监督的图像识别的技术极大实现中间没有进行额外的人工标记的工作。强化学习是通过优化累积的未来奖励信号学习连续决策问题的良好策略。两者的结合使得深度强化学习实现识别图像到动作选择的一种全新的算法，可以直接根据输入的图像实现控制功能，是一种类似于人类学习方式的人工智能方法，其特点是达到和人类一样由感知信息比如视觉，然后通过深度神经网络直接输出相应的动作。深度强化学习具备使机器人实现真正完全自主的学习技能的潜力。深度强化学习在理论和应用方面均取得了显著的成果，对促进人工智能领域的发展具有极大的意义。本文基于深度强化学习的相关理论识别视频游戏中的图像，并根据不同的图像信息输出对应的动作策略，例如，游戏中的上，下，左，右，攻击等。本文具体的工作内容包括：（1）强化学习中本文采用的是Q-learning算法，但是算法有时候学习到不符合实际的高的动作价值函数，因为它包括一个倾向于高估计价值函数的最大化步骤。在以前的研究中，过高的估计是不够有效灵活的函数近似和噪音。研究显示动作值预测不准确的时候过高估计就会发生，这在实践中会对特别是在训练的稳定性上产生负面影响。本文采用了双步Q-learning，可以推广到任意的函数近似，包括在深层神经网络应用双步Q-learning形成的双步DQN（Double Deep Q-learning Network）的方法来解决过高估计问题。（2）另外，深度学习的训练需要大量的样本数据，而且本文在数据集上使用的样本会有高度的相关性问题，本文通过添加了融合了不同模型的神经网络，称之为融合模型的神经网络结构，神经网络结构的不同造成样本数据的多样性提高，并在经验回放机制采样的过程中减少了样本的相关性。仿真结果显示了双步深度强化学习算法不仅产生更准确的估计值，提高训练的稳定性。而且成功学习到了控制策略，并在几款视频游戏中得分要比原始深度强化学习高得多。这表明原始DQN的过高估计确实学到了不是最好的策略，减少这些过高估计是有益的，同时通过模型融合的方式进一步提高了深度强化学习在视频游戏中的得分。

著录项

作者
王康;
展开▼
作者单位

沈阳理工大学;

展开▼
授予单位沈阳理工大学;
学科控制工程
授予学位硕士
导师姓名石征锦;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类食品工业;
关键词
强化学习; 游戏;

相似文献

中文文献
外文文献
专利

1. 深度强化学习在Atari视频游戏上的应用 [J] . 石征锦 ,王康 . 电子世界 . 2017,第016期
2. 基于深度强化学习的多代理马尔科夫游戏 [J] . 罗舒俊 . 电脑编程技巧与维护 . 2018,第012期
3. 融合环境模型与深度强化学习的游戏算法 [J] . 黄学雨 ,郭勤 . 江西理工大学学报 . 2018,第003期
4. 基于深度强化学习算法的"电网脑"及其示范工程应用 [J] . 徐春雷 ,吴海伟 ,刁瑞盛 . 电力需求侧管理 . 2021,第004期
5. 基于深度强化学习的炼钢计划调度系统设计与应用 [J] . 宫晓磊 . 中国金属通报 . 2021,第018期
6. 中国古代游戏“樗蒲”在世界游戏上的定位 [C] . 大谷通顺 . 新世纪文化交流与汉语教学国际学术研讨会 . 2000
7. 基于深度强化学习的视频游戏决策模型研究与应用 [A] . 郭勤 . 2018

基于深度强化学习在游戏上的应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅