首页> 中文期刊>模式识别与人工智能 >基于函数逼近的冗余值迭代算法

基于函数逼近的冗余值迭代算法

     

摘要

针对值迭代算法存在算法收敛不稳定及收敛速度慢的问题,文中提出改进的基于函数逼近的冗余值迭代算法.结合值迭代算法与贝尔曼冗余值迭代算法,引入权重因子,构建值函数参数更新向量.同时从理论上证明,利用此更新向量更新值函数参数可以保证算法收敛,解决值迭代算法收敛不稳定的问题.此外,算法引入遗忘因子,加快权重向量的更新速率和算法收敛速度.在Grid World问题上的实验表明,文中算法收敛性能较好,具有较好的鲁棒性.%Aiming at the problem of unstable and slow convergence of traditional value iteration algorithm, an improved residual value iteration algorithm based on function approximation is proposed.The traditional value iteration algorithm and the value iteration algorithm with Bellman residual are combined.Weight factors are introduced and new rules are constructed to update value function parameter vector.Theoretically, the new parameter vector can guarantee the convergence of the algorithm and solve the unstable convergence problem in the traditional value iteration algorithm.Moreover, the forgotten factor is introduced to speed up the convergence of the algorithm.The experimental results of Grid World problem show that the proposed algorithm has good performance and robustness.

著录项

  • 来源
    《模式识别与人工智能》|2017年第7期|663-672|共10页
  • 作者

    陈建平; 胡文; 傅启明;

  • 作者单位

    苏州科技大学 电子与信息工程学院 苏州 215009;

    苏州科技大学 江苏省建筑智慧节能重点实验室 苏州 215009;

    苏州科技大学 苏州市移动网络技术与应用重点实验室 苏州 215009;

    苏州科技大学 电子与信息工程学院 苏州 215009;

    苏州科技大学 江苏省建筑智慧节能重点实验室 苏州 215009;

    苏州科技大学 苏州市移动网络技术与应用重点实验室 苏州 215009;

    苏州科技大学 电子与信息工程学院 苏州 215009;

    苏州科技大学 江苏省建筑智慧节能重点实验室 苏州 215009;

    苏州科技大学 苏州市移动网络技术与应用重点实验室 苏州 215009;

    吉林大学 符号计算与知识工程教育部重点实验室 长春 130012;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 自动推理、机器学习;
  • 关键词

    强化学习; 值迭代; 函数逼近; 梯度下降; 贝尔曼冗余;

  • 入库时间 2022-08-18 05:23:11

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号