在线更新的信息强度引导启发式Q学习

吴昊霖; 蔡乐才; 高祥

首页> 中文期刊> 《计算机应用研究》 >在线更新的信息强度引导启发式Q学习

在线更新的信息强度引导启发式Q学习

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

团队文献服务 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

针对强化学习收敛速度慢的问题,提出可在线更新的信息强度引导的启发式Q学习算法以加快强化学习算法的收敛速度.该算法在启发式强化学习算法的基础上引入依据每次训练回报情况进行在线更新的信息强度,通过结合强弱程度不同的动作信息强度更新的启发函数和状态—动作值函数来确定策略,从而提高算法收敛速度.给出该算法并对其收敛性进行证明,同时针对不同参数设置和仿真环境进行路径规划的仿真对比实验,得到实验结果:信息强度引导的启发式Q学习算法在成功率、达到目标位置所需步数及所获回报上均优于Q学习和基本启发式Q学习算法.实验结果表明,该算法能更快地得到回报较高的策略且不会陷入局部收敛,因而该算法能够有效提高算法的收敛速度.

著录项

来源
《计算机应用研究》 |2018年第8期|2323-2327|共5页
作者
吴昊霖; 蔡乐才; 高祥;
展开▼
作者单位

四川理工学院自动化与信息工程学院;

四川自贡643000;

人工智能四川省重点实验室;

四川自贡643000;

人工智能四川省重点实验室;

四川自贡643000;

宜宾学院;

四川宜宾644000;

人工智能四川省重点实验室;

四川自贡643000;

展开▼
原文格式 PDF
正文语种 chi
中图分类自动推理、机器学习 ;
关键词
强化学习 ; 启发函数 ; 信息强度; 在线更新 ; 收敛速度 ;

相似文献

中文文献
外文文献
专利

1. 基于案例推理和启发式Q学习的资源分配算法 [J] . 徐琳 ,赵知劲 . 计算机应用研究 . 2019 ,第012期
2. 基于状态回溯代价分析的启发式Q学习* [J] . 方敏 ,李浩 . 模式识别与人工智能 . 2013 ,第009期
3. 新的启发式Q学习算法 [J] . 王洪彦 . 计算机工程 . 2009 ,第022期
4. 共有信息引导的启发式聚类算法 [J] . 金萍 ,宗瑜 ,李明楚 . 计算机工程与应用 . 2010 ,第031期
5. 信息类课程中启发式、引导式教学法的运用 [J] . 王水清 . 无锡教育学院学报 . 2002 ,第004期
6. 液晶显示动态图像质量测量中的测试图形在线更新 [C] . 张凯 ,李晓华 ,杨晓伟 . 第七届华东三省一市真空学术交流会 . 2011
7. 基于Q学习算法的非完备信息机器博弈的研究 [A] . 李昌 . 2015

在线更新的信息强度引导启发式Q学习

摘要

著录项

相似文献

相关主题

期刊订阅