首页> 中文学位 >径向基函数网络和实例学习在强化学习中的应用
【6h】

径向基函数网络和实例学习在强化学习中的应用

代理获取

目录

文摘

英文文摘

论文说明

独创性声明及学位论文版权使用授权书

致谢

第一章绪论

1.1引言

1.2强化学习的历史

1.3强化学习的现状

1.4本文的组织

第二章强化学习模型及主要算法

2.1概述

2.2马尔可夫决策过程(MDP)模型

2.3动态规划值迭代

2.3.1值迭代

2.3.2策略迭代

2.4蒙特卡洛算法(Monte Carlo)

2.5即时差分学习TD(Temporal Difference Learning)

2.5.1即时差分(Temporal Difference,TD)

2.5.2探索与利用(Exploration versus Exploitation)

2.5.3行动-评价器(Actor-Critic)

2.5.4.Sarsa算法

2.5.5 Q学习

2.6多步强化学习

2.6.1 TD(λ)

2.6.2 Sarsa(λ)

2.6.3.Q(λ)

2.7小结

第三章神经网络和强化学习

3.1引言

3.2值函数近似

3.2.1强化学习和近似器

3.2.2.线性值函数近似

3.3神经网络和强化学习

3.3.1 MLP和RL

3.3.2 RBF神经网络

3.3.3基于RBF网络的强化学习算法

3.3.4实验

3.4小结

第四章基于实例学习的强化学习算法

4.1引言

4.2实例学习

4.3基于实例的强化学习算法

4.3.1值函数预测

4.3.2值函数更新(RL部分)

4.3.3算法的分析

4.3.4实验

4.4小结

第五章总结和展望

5.1总结

5.2未来工作

参考文献:

在读硕期间发表的学术论文及参与的项目

展开▼

摘要

近些年来对于强化学习的研究工作越来越多,强化学习被认为是设计智能主体核心技术之一.研究者青睐强化学习主要是它的一般性,仅仅只需要给定目标,智能主体会通过与环境的不断交互来达到.传统的强化学习算法仅限于离散有限的输入空间,运用查表法来存储值函数,然而实际系统的状态或决策空间大多数是连续的,因此不可能用查表法来表示值函数.一个比较好的方法是利用近似器逼近值函数,但是由于可能发散逼近并不是简单地用近似器替换表结构.很多的研究显示,利用局部逼近的技术能够比较好的逼近值函数,本文主要利用局部逼近来表示值函数,主要工作有:(1)利用径向基函数网络来拟合值函数,解决了连续状态空间的泛化表示.(2)利用实例学习表示值函数,提高了系统性能.(3)对上述两种方法进行了实验,显示出较好的结果.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号