一类值函数激励学习的遗忘算法

陈焕文; 谢丽娟; 谢建平

首页> 中文期刊> 《计算机研究与发展》 >一类值函数激励学习的遗忘算法

一类值函数激励学习的遗忘算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

One of the interesting and difficult problems in recent reinforcement learning (RL) is to solve large-scale state space problem. The basic principle on forgetting in memory psychology has been combined with value-based reinforcement learning, thus generating a class of forgetting algorithms suitable to overcoming the RL problems. In this paper, the basic concepts for solving Markov decision problems are briefly introduced, the differences between off-policy and on-policy algorithms are compared, and the standard SARSA(λ) method is also outlined. After some characteristics of human memory and forgetting are analyzed, a forgetting rule for the RL agent is proposed, and then the SARSA(λ) algorithm is improved so as to form a Forget-SARSA(λ) with forgetting function. Finally, the experimental results are presented.%大状态空间值函数的激励学习是当今国际激励学习领域的一个热点和难点问题.将记忆心理学中有关遗忘的基本原理引入值函数的激励学习，形成了一类适合于值函数激励学习的遗忘算法.首先简要介绍了解决马尔可夫决策问题的基本概念，比较了离策略和在策略激励学习算法的差别，概述了标准的SARSA(λ)算法.在分析了人类记忆和遗忘的一些特征后，提出了一个智能体遗忘准则，进而将SARSA(λ)算法改进为具有遗忘功能的Forget-SARSA(λ)算法，最后给出了实验结果.

著录项

来源
《计算机研究与发展》 |2001年第4期|487-494|共8页
作者
陈焕文; 谢丽娟; 谢建平;
展开▼
作者单位

长沙电力学院数学与计算机系;

长沙电力学院数学与计算机系;

长沙交通学院网络中心;

展开▼
原文格式 PDF
正文语种 chi
中图分类人工智能理论;
关键词
激励学习; SARSA(λ)算法; 遗忘; Markov决策过程;

相似文献

中文文献
外文文献
专利

1. 基于动态规划方法的激励学习遗忘算法 [J] . 殷苌茗 ,王汉兴 ,陈焕文 . 计算机工程与应用 . 2004,第016期
2. 一种激励学习遗忘算法 [J] . 密君英 ,李凡长 . 计算机工程与应用 . 2004,第030期
3. 一类基于启发式搜索的激励学习算法 [J] . 唐中勇 ,付强 ,卓佳 . 计算机技术与发展 . 2006,第008期
4. 一类基于有效跟踪的广义平均奖赏激励学习算法 [J] . 陈焕文 ,谢建平 . 计算机工程与应用 . 2002,第001期
5. 一类基于二维线性插值函数的改进Canny算法 [J] . 李健 ,李俊杰 ,任宪盛 . 东北师大学报：自然科学版 . 2015,第4期
6. 一种新的带有遗忘因子的迭代学习控制算法 [C] . 田森平 ,谢胜利 . 第二十二届中国控制会议 . 2003
7. 带遗忘因子的变增益迭代学习控制算法研究 [A] . 甘义震 . 2018

一类值函数激励学习的遗忘算法

摘要

著录项

相似文献

相关主题

期刊订阅