首页> 中文学位 >连续空间非参函数逼近方法研究
【6h】

连续空间非参函数逼近方法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 引言

1.1 研究背景与意义

1.2 研究现状

1.3 本文研究内容

1.4 本文的组织结构

第二章 连续空间非参函数逼近的理论基础

2.1 马尔可夫决策过程

2.2 行动者-评论家(Actor-Critic, AC)

2.3 策略梯度基本概念

2.4 非参函数逼近器

2.5 ALD核稀疏化方法

2.6 本章小结

第三章 基于核的递归最小二乘AC算法

3.1 基于ALD的非参函数逼近

3.2 基于核的递归最小二乘AC算法

3.3 仿真实验

3.4 本章小结

第四章 基于最小二乘支持向量回归的AC算法

4.1 LSSVR算法逼近状态值函数

4.2 基于最小二乘支持向量回归的AC算法

4.3 仿真实验

4.4 本章小结

第五章 基于GPTD的在线AC算法

5.1 TD学习的高斯过程

5.2 基于GPTD的在线AC算法

5.3 仿真实验

5.4 本章小结

第六章 总结与展望

6.1 本文总结

6.2 工作展望

参考文献

攻读硕士学位期间公开发表的论文与科研项目

致谢

展开▼

摘要

强化学习是一种试错学习,可解决无模型问题,在没有任何先验知识的情况下, Agent通过与环境不断交互实现基于自身经验的学习。本文研究的是连续状态动作空间的问题,传统的解决方法是离散化状态或动作空间,为了保证一定的精度,离散化方法会导致状态动作空间非常大,从而引起“维数灾”。本文提出三种基于行动者-评论家(Actor-Critic,AC)架构的算法,其中Critic部分使用非参函数逼近来解决连续状态空间“维数灾”问题,Actor部分使用策略梯度寻找动作。
  本研究主要内容包括:⑴针对已有的非参方法存在样本利用率低的问题,提出了一种基于核的递归最小二乘AC算法。行动者部分给出了一种基于核的策略梯度算法,在估计策略梯度时,用核函数逼近器逼近真实的Q值。评论家部分提出了一种基于ALD的KRLSTD-Q算法,在消除了矩阵的逆运算同时,可以充分利用样本信息。通过Mountain Car的仿真实验验证了算法的有效性。⑵鉴于高斯核函数的有效性,提出了一个基于最小二乘支持向量回归(LSSVR)的AC算法。该算法的行动者部分使用的是策略梯度算法,为了使该算法具有可行性,提出了一种在策略评估样本集和策略改进样本集上协调工作的方式。使用ALD方法稀疏化策略评估样本集,产生数据字典。评论家用LSSVR方法在数据字典上回归V值函数,行动者在策略改进样本集上改进策略。⑶前两种算法都是离线的,针对离线方法不具有实时性的问题,提出了一种基于GPTD的在线AC算法。该算法的行动者部分提出了一种在线的策略梯度算法,能够适应核的增长,从而适用于非参算法中的在线学习。评论家部分使用在线的GPTD算法实时地评估行动者产生的动作。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号