首页> 中文学位 >深度强化学习的梯度时序差分评价网络算法研究

【6h】

深度强化学习的梯度时序差分评价网络算法研究

代理获取

页面导航

目录
著录项
引文网络
相似文献
相关主题

目录

声明

摘要

第一章绪论

1．1引言

1．2前人的研究成果

1．3本文研究内容

1．4本文的组织结构

2．1引言

2．2强化学习理论

2．2．1马尔科夫决策过程

2．2．2值函数

2．2．3时序差分学习

2．2．4 Q学习算法

2．2．5目标函数

2．2．6策略梯度

2．3深度强化学习理论

2．3．1深度Q学习算法

2．3．2经验回放机制

2．4本章小结

第三章基于动作-评价网络的线性预估器加速算法研究

3．1引言

3．2．1 ALA-AC算法框架

3．2．2评价网络的改进

3．2．3动作网络的设计

3．3实验方案及结果分析

3．3．1实验环境选取和设计

3．3．2奖励函数的设计

3．3．3实验结果及分析

3．4本章小结

第四章基于ALA-AC算法的目标函数改进与应用

4．1引言

4．2基于均方投影贝尔曼误差的目标函数改进

4．2．1均方投影贝尔曼误差

4．2．2梯度时序差分算法及改进

4．2．3时序差分梯度矫正算法

4．3实验方案及结果分析

4．3．1倒立摆控制问题

4．3．2无人车路径规划问题

4．4本章小结

第五章总结与展望

5．1总结

5．2展望

参考文献

致谢

研究成果及发表的学术论文

导师和作者简介

展开▼

著录项

作者
郑钰;
展开▼
作者单位

北京化工大学;

展开▼
授予单位北京化工大学;
学科控制科学与工程
授予学位硕士
导师姓名李大字;
年度 2020
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词

相似文献

中文文献
外文文献
专利

1. 基于图像卷积神经网络的匝道控制深度强化学习算法研究 [J] . 戴昇宏1 ,李志斌1 . 交通工程 . 2019,第004期
2. 基于图像卷积神经网络的匝道控制深度强化学习算法研究 [J] . 戴昇宏 ,李志斌 . 道路交通与安全 . 2019,第004期
3. 海洋渔业GIS中温度水平梯度计算的误差分析和新算法研究 [J] . 邵全琴 ,戎恺 ,游智敏 . 遥感学报 . 2005,第002期
4. 基于注意力网络的地基SAR时序差分相位分类方法 [J] . 王彦平 ,崔紫维 ,曹琨 . 信号处理 . 2021,第007期
5. 基于二阶时序差分误差的双网络DQN算法 [J] . 陈建平 ,周鑫 ,傅启明 . 计算机工程 . 2020,第005期
6. 基于改进共轭梯度理论的神经网络优化算法研究 [C] . 张海夺 ,李海涛 ,刘洋 . 吉林省第九届科学技术学术年会 . 2016
7. 局部方向梯度幅值与相位差分的人脸识别算法研究及实现 [A] . 姜德财 . 2017

代理获取

客服邮箱：kefu@zhangqiaokeyan.com

京公网安备：11010802029741号 ICP备案号：京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有

客服微信
服务号