一种改进的平均奖赏强化学习方法在RoboCup训练中的应用

李瑾; 刘全; 杨旭东; 杨凯; 翁东良

首页> 中文期刊> 《苏州大学学报：自然科学版》 >一种改进的平均奖赏强化学习方法在RoboCup训练中的应用

一种改进的平均奖赏强化学习方法在RoboCup训练中的应用

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

强化学习在人工智能领域中是一种重要的解决学习控制问题的方法.在强化学习中,平均奖赏类型的强化学习方法适用于解决具有循环特性或者不具有终结状态的问题,然而平均奖赏强化学习存在收敛速度慢、对参数和环境敏感等问题.针对平均奖赏强化学习收敛速度缓慢这一问题,提出了一种改进的平均奖赏强化学习方法.同时,为了处理大状态空间、提高泛化能力,算法采用神经网络作为近似函数.算法在RoboCup中实验的训练表明该算法具有较快的收敛速度和较强的泛化能力.

著录项

来源
《苏州大学学报：自然科学版》 |2012年第2期|21-26|共6页
作者
李瑾; 刘全; 杨旭东; 杨凯; 翁东良;
展开▼
作者单位

苏州大学计算机科学与技术学院;

展开▼
原文格式 PDF
正文语种 chi
中图分类安全保密;
关键词
平均奖赏; 强化学习; Keepaway; RoboCup;

相似文献

中文文献
外文文献
专利

1. 一种改进的强化学习方法在RoboCup中应用研究 [J] . 程显毅 ,朱倩 . 广西师范大学学报（自然科学版） . 2010,第003期
2. 改进的模糊Q学习方法及其在RoboCup中的应用 [J] . 张驰 ,韩光胜 . 计算机仿真 . 2005,第005期
3. 一种模糊强化学习算法及其在RoboCup中的应用 [J] . 高建清 ,王浩 ,于磊 . 计算机工程与应用 . 2006,第006期
4. 一种改进的字典学习方法在医疗疾病分析中的应用 [J] . 骆冲 ,邬春学 . 电子科技 . 2019,第002期
5. 一种改进的隐马尔可夫模型训练方法及其在声目标识别中的应用 [J] . 刘辉 ,杨俊安 ,许学忠 . 电路与系统学报 . 2011,第001期
6. 基于模糊CMAC的强化学习在Robocup中的应用 [C] . 李真 ,吴定会 ,纪志成 . 2007中国控制与决策学术年会 . 2007
7. 基于性能势的改进平均奖赏强化学习算法研究 [A] . 杨宛璐 . 2014

一种改进的平均奖赏强化学习方法在RoboCup训练中的应用

摘要

著录项

相似文献

相关主题

期刊订阅