首页> 中文期刊>计算机学报 >一种采用模型学习和经验回放加速的正则化自然行动器评判器算法

一种采用模型学习和经验回放加速的正则化自然行动器评判器算法

     

摘要

行动器评判器(Actor Critic,简称AC)算法是强化学习连续动作领域的一类重要算法,其采用独立的结构表示策略,但更新策略时需要大量样本导致样本效率不高.为了解决该问题,提出了基于模型学习和经验回放加速的正则化自然AC算法(Regularized Natural AC with Model Learning and Experience Replay,简称RNAC-ML-ER).RNAC-ML-ER将Agent与环境在线交互产生的样本用于学习系统动态性对应的线性模型和填充经验回放存储器.将线性模型产生的模拟样本和经验回放存储器中存储的样本作为在线样本的补充,实现值函数、优势函数和策略的更新.为了提高更新的效率,在每个时间步,仅当模型的预测误差未超过阈值时才利用该模型进行规划,同时根据TD-error从大到小的顺序对经验回放存储器中的样本进行回放.为了降低策略梯度估计的方差,引入优势函数参数向量对优势函数进行线性近似,在优势函数的目标函数中加入(l)2-范数进行正则化,并通过优势函数参数向量来对策略梯度更新,以促进优势函数和策略的收敛.在指定的两个假设成立的条件下,通过理论分析证明了所提算法RNAC-ML-ER的收敛性.在4个强化学习的经典问题即平衡杆、小车上山、倒立摆和体操机器人中对RNAC-ML-ER算法进行实验,结果表明所提算法能在大幅提高样本效率和学习速率的同时保持较高的稳定性.

著录项

  • 来源
    《计算机学报》|2019年第3期|532-553|共22页
  • 作者单位

    苏州大学计算机科学与技术学院 江苏苏州 215006;

    常熟理工学院计算机科学与工程学院 江苏常熟215500;

    吉林大学符号计算与知识工程教育部重点实验室 长春 130012;

    苏州科技大学江苏省建筑智慧节能重点实验室 江苏苏州 215006;

    苏州大学计算机科学与技术学院 江苏苏州 215006;

    吉林大学符号计算与知识工程教育部重点实验室 长春 130012;

    软件新技术与产业化协同创新中心 南京210000;

    吉林大学符号计算与知识工程教育部重点实验室 长春 130012;

    苏州科技大学江苏省建筑智慧节能重点实验室 江苏苏州 215006;

    苏州科技大学电子与信息工程学院 江苏苏州 215006;

    苏州大学计算机科学与技术学院 江苏苏州 215006;

    常熟理工学院计算机科学与工程学院 江苏常熟215500;

    苏州大学计算机科学与技术学院 江苏苏州 215006;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 人工智能理论;
  • 关键词

    行动器评判器算法; 模型学习; 经验回放; 最优策略; 正则化; 自然梯度;

  • 入库时间 2023-07-25 14:02:42

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号