首页> 中文学位 >深度强化学习的梯度时序差分评价网络算法研究
【6h】

深度强化学习的梯度时序差分评价网络算法研究

代理获取

目录

声明

摘要

第一章绪论

1.1引言

1.2前人的研究成果

1.3本文研究内容

1.4本文的组织结构

2.1引言

2.2强化学习理论

2.2.1马尔科夫决策过程

2.2.2值函数

2.2.3时序差分学习

2.2.4 Q学习算法

2.2.5目标函数

2.2.6策略梯度

2.3深度强化学习理论

2.3.1深度Q学习算法

2.3.2经验回放机制

2.4本章小结

第三章基于动作-评价网络的线性预估器加速算法研究

3.1引言

3.2.1 ALA-AC算法框架

3.2.2评价网络的改进

3.2.3动作网络的设计

3.3实验方案及结果分析

3.3.1实验环境选取和设计

3.3.2奖励函数的设计

3.3.3实验结果及分析

3.4本章小结

第四章基于ALA-AC算法的目标函数改进与应用

4.1引言

4.2基于均方投影贝尔曼误差的目标函数改进

4.2.1均方投影贝尔曼误差

4.2.2梯度时序差分算法及改进

4.2.3时序差分梯度矫正算法

4.3实验方案及结果分析

4.3.1倒立摆控制问题

4.3.2无人车路径规划问题

4.4本章小结

第五章总结与展望

5.1总结

5.2展望

参考文献

致谢

研究成果及发表的学术论文

导师和作者简介

展开▼

著录项

  • 作者

    郑钰;

  • 作者单位

    北京化工大学;

  • 授予单位 北京化工大学;
  • 学科 控制科学与工程
  • 授予学位 硕士
  • 导师姓名 李大字;
  • 年度 2020
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类
  • 关键词

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号