首页> 中文期刊>计算机学报 >带最大熵修正的行动者评论家算法

带最大熵修正的行动者评论家算法

     

摘要

在行动者评论家算法中,策略梯度通常使用最大熵正则项来提高行动策略的随机性以保证探索.策略的随机使Agent能够遍历所有动作,但是会造成值函数的低估并影响算法的收敛速度与稳定性.针对策略梯度中最大熵正则项带来的低估问题,提出最大熵修正(Maximum-Entropy Correction,MEC)算法.该算法有两个特点:(1)利用状态值函数与策略函数构造一种状态动作值函数的估计,构造的状态动作值函数符合真实值函数的分布;(2)将贝尔曼最优方程与构造的状态动作值函数结合作为MEC算法的目标函数.通过使用新的目标函数,MEC算法可以解决使用最大熵正则项带来的性能下降与不稳定.为了验证算法的有效性,将该算法与近似策略优化算法以及优势行动者评论家算法在Atari 2600游戏平台进行比较实验.实验结果表明,MEC在改进性能的同时提高了算法的稳定性.

著录项

  • 来源
    《计算机学报》|2020年第10期|1897-1908|共12页
  • 作者

    姜玉斌; 刘全; 胡智慧;

  • 作者单位

    苏州大学计算机科学与技术学院 江苏 苏州 215006;

    苏州大学计算机科学与技术学院 江苏 苏州 215006;

    苏州大学江苏省计算机信息处理技术重点实验室 江苏苏州 215006;

    吉林大学符号计算与知识工程教育部重点实验室 长春130012;

    软件新技术与产业化协同创新中心 南京210000;

    苏州大学计算机科学与技术学院 江苏 苏州 215006;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 人工智能理论;
  • 关键词

    强化学习; 深度学习; 行动者评论家算法; 最大熵; 策略梯度;

  • 入库时间 2022-08-19 00:50:01

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号