首页> 中文学位 >基于深度强化学习在游戏上的应用
【6h】

基于深度强化学习在游戏上的应用

代理获取

目录

第一个书签之前

展开▼

摘要

对图像进行识别并做出判断输出相应的动作或者决策对很多领域有重要的意义,特别是在汽车的无人驾驶,医疗机器人等方面。深度学习作为一种无监督的图像识别的技术极大实现中间没有进行额外的人工标记的工作。强化学习是通过优化累积的未来奖励信号学习连续决策问题的良好策略。两者的结合使得深度强化学习实现识别图像到动作选择的一种全新的算法,可以直接根据输入的图像实现控制功能,是一种类似于人类学习方式的人工智能方法,其特点是达到和人类一样由感知信息比如视觉,然后通过深度神经网络直接输出相应的动作。深度强化学习具备使机器人实现真正完全自主的学习技能的潜力。深度强化学习在理论和应用方面均取得了显著的成果,对促进人工智能领域的发展具有极大的意义。 本文基于深度强化学习的相关理论识别视频游戏中的图像,并根据不同的图像信息输出对应的动作策略,例如,游戏中的上,下,左,右,攻击等。本文具体的工作内容包括: (1)强化学习中本文采用的是Q-learning算法,但是算法有时候学习到不符合实际的高的动作价值函数,因为它包括一个倾向于高估计价值函数的最大化步骤。在以前的研究中,过高的估计是不够有效灵活的函数近似和噪音。研究显示动作值预测不准确的时候过高估计就会发生,这在实践中会对特别是在训练的稳定性上产生负面影响。本文采用了双步Q-learning,可以推广到任意的函数近似,包括在深层神经网络应用双步Q-learning形成的双步DQN(Double Deep Q-learning Network)的方法来解决过高估计问题。 (2)另外,深度学习的训练需要大量的样本数据,而且本文在数据集上使用的样本会有高度的相关性问题,本文通过添加了融合了不同模型的神经网络,称之为融合模型的神经网络结构,神经网络结构的不同造成样本数据的多样性提高,并在经验回放机制采样的过程中减少了样本的相关性。 仿真结果显示了双步深度强化学习算法不仅产生更准确的估计值,提高训练 的稳定性。而且成功学习到了控制策略,并在几款视频游戏中得分要比原始深度强化学习高得多。这表明原始DQN的过高估计确实学到了不是最好的策略,减少这些过高估计是有益的,同时通过模型融合的方式进一步提高了深度强化学习在视频游戏中的得分。

著录项

  • 作者

    王康;

  • 作者单位

    沈阳理工大学;

  • 授予单位 沈阳理工大学;
  • 学科 控制工程
  • 授予学位 硕士
  • 导师姓名 石征锦;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 食品工业;
  • 关键词

    强化学习; 游戏;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号