基于测地高斯基函数的递归最小二乘策略迭代

王雪松; 张政; 程玉虎; 张依阳

首页> 中文期刊> 《信息与控制》 >基于测地高斯基函数的递归最小二乘策略迭代

基于测地高斯基函数的递归最小二乘策略迭代

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

在策略迭代结强化学习方法的值函数逼近过程中,基函数的合理选择直接影响方法的性能.为更好地描述环境的拓扑关系,采用测地线距离来替换普通高斯函数中的欧氏距离,提出一种基于测地高斯基函数的策略迭代强化学习方法.首先,基于马尔可夫决策过程抽样得到的样本数据建立环境的图论描述.其次,在图上定义测地高斯基函数,并用基于最短路径快速算法得到的最短路径来逼近测地线距离.然后,假定强化学习系统的状态—动作值函数是给定测地高斯基函数的加权组合,采用递归最小二乘方法对权值进行在线增量式更新.最后,基于估计的值函数进行策略改进.10×10和20×20迷宫问题的仿真结果验证了所提策略迭代方法的有效性.

著录项

来源
《信息与控制》 |2009年第4期|406-411|共6页
作者
王雪松; 张政; 程玉虎; 张依阳;
展开▼
作者单位

中国矿业大学信息与电气工程学院;

中国科学院自动化研究所复杂系统与智能科学重点实验室;

展开▼
原文格式 PDF
正文语种 chi
中图分类人工智能理论;
关键词
策略迭代; 递归最小二乘; 图论; 测地距离; 高斯函数; 基函数;

相似文献

中文文献
外文文献
专利

1. 基于递归正交最小二乘的径向基函数网络人脸识别 [J] . 黎云汉 ,朱善安 . 信号处理 . 2007,第003期
2. 基于状态-动作图测地高斯基的策略迭代强化学习 [J] . 程玉虎 ,冯涣婷 ,王雪松 . 自动化学报 . 2011,第001期
3. 一种新型径向基函数神经网络学习算法——递归正交最小二乘法(ROLS) [J] . 张兴兰 ,曹长修 ,梅彬 . 重庆大学学报：自然科学版 . 2002,第10期
4. 高斯马尔可夫随机场模型的递归最小二乘参数估计 [J] . 邹采荣 ,何振亚 ,王太君 . 电子学报 . 1992,第004期
5. 贝努利—高斯信号的递归SMLR迭代算法 [J] . 鲍斌 . 贵州航天 . 1994,第003期
6. 基于基函数正交化方法的移动最小二乘法的快速算法 [C] . Guo Chunxian ,郭春贤 ,Wu Zhao . 中国电机工程学会2017年全国电工理论与新技术学术年会 . 2017
7. 基于测地高斯核的策略迭代强化学习 [A] . 闫称 . 2015

基于测地高斯基函数的递归最小二乘策略迭代

摘要

著录项

相似文献

相关主题

期刊订阅