连续空间非参函数逼近方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

强化学习是一种试错学习,可解决无模型问题,在没有任何先验知识的情况下, Agent通过与环境不断交互实现基于自身经验的学习。本文研究的是连续状态动作空间的问题,传统的解决方法是离散化状态或动作空间,为了保证一定的精度,离散化方法会导致状态动作空间非常大,从而引起“维数灾”。本文提出三种基于行动者-评论家(Actor-Critic,AC)架构的算法,其中Critic部分使用非参函数逼近来解决连续状态空间“维数灾”问题,Actor部分使用策略梯度寻找动作。
　　本研究主要内容包括：⑴针对已有的非参方法存在样本利用率低的问题,提出了一种基于核的递归最小二乘AC算法。行动者部分给出了一种基于核的策略梯度算法,在估计策略梯度时,用核函数逼近器逼近真实的Q值。评论家部分提出了一种基于ALD的KRLSTD-Q算法,在消除了矩阵的逆运算同时,可以充分利用样本信息。通过Mountain Car的仿真实验验证了算法的有效性。⑵鉴于高斯核函数的有效性,提出了一个基于最小二乘支持向量回归(LSSVR)的AC算法。该算法的行动者部分使用的是策略梯度算法,为了使该算法具有可行性,提出了一种在策略评估样本集和策略改进样本集上协调工作的方式。使用ALD方法稀疏化策略评估样本集,产生数据字典。评论家用LSSVR方法在数据字典上回归V值函数,行动者在策略改进样本集上改进策略。⑶前两种算法都是离线的,针对离线方法不具有实时性的问题,提出了一种基于GPTD的在线AC算法。该算法的行动者部分提出了一种在线的策略梯度算法,能够适应核的增长,从而适用于非参算法中的在线学习。评论家部分使用在线的GPTD算法实时地评估行动者产生的动作。

著录项

作者
朱文文;
展开▼
作者单位

苏州大学;

展开▼
授予单位苏州大学;
学科计算机软件与理论
授予学位硕士
导师姓名伏玉琛;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动推理、机器学习 ; 算法理论 ;
关键词
机器学习; 高斯核函数; 回归分析; GPTD算法;

相似文献

中文文献
外文文献
专利

1. Orlicz-Sobolev空间的Lipschitz连续函数逼近 [J] . 刘春芳 ,付永强 ,罗跃生 . 应用泛函分析学报 . 2013 ,第003期
2. 高维欧氏空间上无界连续函数逼近的渐近公式 [J] . 郑成德 . 大连交通大学学报 . 2001 ,第003期
3. 非主断面地表移动观测站布置及求参方法研究 [J] . 宋利杰 ,韩永斌 . 煤炭科学技术 . 2015 ,第010期
4. 人参非皂苷类成分分析方法研究进展 [J] . 王明蛟 ,高航 ,刚婉娇 . 吉林中医药 . 2014 ,第007期
5. 采用非差模型的区域连续运行参考站网地学应用方法研究 [J] . 沈飞 . 测绘学报 . 2020 ,第008期
6. 单层空间网格结构连续性倒塌模拟方法研究 [C] . TIAN Limin ,田黎敏 ,WEI Jianpeng . 第四届建筑结构抗倒塌会议 . 2016
7. 基于非参函数逼近的强化学习算法研究 [A] . 朱稷涵 . 2014

连续空间非参函数逼近方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅