首页> 中文学位 >基于强化学习的动作控制与决策研究
【6h】

基于强化学习的动作控制与决策研究

代理获取

目录

声明

第一章 绪论

1.1 研究背景与意义

1.2.1 国外研究现状

1.2.2 国内研究现状

1.3 本文研究工作

第二章 强化学习基础研究

2.1机器学习简述

2.2强化学习基本原理及系统组成

2.2.1强化学习系统组成

2.2.2马尔科夫决策过程

第三章 强化学习算法与改进的强化学习算法

3.1模型已知的强化学习算法

3.1.1 策略迭代算法(Policy Interation Method)

3.1.2价值迭代算法(Value Iteration Method)

3.2模型未知的强化学习算法

3.2.1蒙特卡洛算法(Monte Carlo Method)

3.2.2 时序差分算法(Temporal-Difference Learning)

3.2.3 SARSA 算法

3.2.4 Q-Learning算法

3.2.5 DQN算法

3.3基于Q-Learning与DQN的改进算法

3.3.1基于Q-Learning的动作控制改进算法

3.3.2基于DQN的动作控制改进算法

第四章 实验设计与结果分析

4.1实验设计

4.2.1 Open AI与Gym

4.2.2 ALE与Atari 2600

4.2.3实验环境预处理

4.3实验结果分析

4.3.1改进算法的实验分析

4.3.2 与不同算法的对比实验

4.4实验总结与展望

第五章 总结与展望

5.1总结

5.2展望

致谢

参考文献

攻读学位期间参加科研项目情况及获得的学术成果

展开▼

著录项

  • 作者

    徐娟;

  • 作者单位

    西安石油大学;

  • 授予单位 西安石油大学;
  • 学科 控制工程
  • 授予学位 硕士
  • 导师姓名 穆向阳;
  • 年度 2020
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 TP3TP2;
  • 关键词

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号