带最大熵修正的行动者评论家算法

姜玉斌; 刘全; 胡智慧

首页> 中文期刊>计算机学报 >带最大熵修正的行动者评论家算法

带最大熵修正的行动者评论家算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

在行动者评论家算法中,策略梯度通常使用最大熵正则项来提高行动策略的随机性以保证探索.策略的随机使Agent能够遍历所有动作,但是会造成值函数的低估并影响算法的收敛速度与稳定性.针对策略梯度中最大熵正则项带来的低估问题,提出最大熵修正(Maximum-Entropy Correction,MEC)算法.该算法有两个特点:(1)利用状态值函数与策略函数构造一种状态动作值函数的估计,构造的状态动作值函数符合真实值函数的分布;(2)将贝尔曼最优方程与构造的状态动作值函数结合作为MEC算法的目标函数.通过使用新的目标函数,MEC算法可以解决使用最大熵正则项带来的性能下降与不稳定.为了验证算法的有效性,将该算法与近似策略优化算法以及优势行动者评论家算法在Atari 2600游戏平台进行比较实验.实验结果表明,MEC在改进性能的同时提高了算法的稳定性.

著录项

来源
《计算机学报》|2020年第10期|1897-1908|共12页
作者
姜玉斌; 刘全; 胡智慧;
展开▼
作者单位

苏州大学计算机科学与技术学院江苏苏州 215006;

苏州大学计算机科学与技术学院江苏苏州 215006;

苏州大学江苏省计算机信息处理技术重点实验室江苏苏州 215006;

吉林大学符号计算与知识工程教育部重点实验室长春130012;

软件新技术与产业化协同创新中心南京210000;

苏州大学计算机科学与技术学院江苏苏州 215006;

展开▼
原文格式 PDF
正文语种 chi
中图分类人工智能理论;
关键词
强化学习; 深度学习; 行动者评论家算法; 最大熵; 策略梯度;
入库时间 2022-08-19 00:50:01

相似文献

中文文献
外文文献
专利

1. 基于双重注意力机制的异步优势行动者评论家算法 [J] . 凌兴宏 ,李杰 ,朱斐 . 计算机学报 . 2020,第001期
2. 基于经验指导的深度确定性多行动者-评论家算法 [J] . 陈红名 ,刘全 ,闫岩 . 计算机研究与发展 . 2019,第008期
3. 增量式双自然策略梯度的行动者评论家算法 [J] . 章鹏 ,刘全 ,钟珊 . 通信学报 . 2017,第004期
4. 连续空间中的一种动作加权行动者评论家算法 [J] . 刘全 ,章鹏 ,钟珊 . 计算机学报 . 2017,第006期
5. 一种基于高斯过程的行动者评论家算法 [J] . 陈仕超 ,凌兴宏 ,刘全 . 计算机应用研究 . 2016,第006期
6. 带活力因子的量子粒子群算法卫星基板模型修正 [C] . 孔宪仁 ,秦玉灵 ,罗文波 . 2009年中国宇航学会学术年会 . 2009
7. 基于行动者评论家的探索动作修正算法研究 [A] . 姜玉斌 . 2019

带最大熵修正的行动者评论家算法

摘要

著录项

相似文献

相关主题

期刊订阅