基于自适应调节策略熵的元强化学习算法

陆嘉猷; 凌兴宏; 刘全; 朱斐

首页> 中文期刊> 《计算机科学》 >基于自适应调节策略熵的元强化学习算法

基于自适应调节策略熵的元强化学习算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

传统的深度强化学习方法依赖大量的经验样本并且难以适应新任务.元强化学习通过从以往的训练任务中提取先验知识,为智能体快速适应新任务提供了一种有效的方法.基于最大熵强化学习框架的元深度强化学习通过最大化期望奖赏和最大化策略熵来优化策略.然而,目前以最大熵强化学习框架为基础的元强化学习算法普遍采用固定的温度参数,这在面对元强化学习的多任务场景时是不合理的.针对这一问题,提出了自适应调节策略熵(Automating Policy Entropy,APE)算法.该算法首先通过限制策略的熵,将原本的目标函数优化问题转换为受限优化问题,然后将受限优化问题中的对偶变量作为温度参数,通过拉格朗日对偶法求解得到其更新公式.根据得到的更新公式,温度参数将在每一轮元训练结束之后进行自适应调节.实验数据表明,所提算法在Ant-Fwd-Back和Walker-2D上的平均得分提高了200,元训练效率提升了82％;在Humanoid-Di-rec-2D上的策略收敛所需的训练步数为23万,收敛速度提升了127％.实验结果表明,所提算法具有更高的元训练效率和更好的稳定性.

著录项

来源
《计算机科学》 |2021年第6期|168-174|共7页
作者
陆嘉猷; 凌兴宏; 刘全; 朱斐;
展开▼
作者单位

苏州大学计算机科学与技术学院江苏苏州215006;

苏州大学计算机科学与技术学院江苏苏州215006;

苏州大学文正学院江苏苏州215104;

苏州大学计算机科学与技术学院江苏苏州215006;

苏州大学计算机科学与技术学院江苏苏州215006;

展开▼
原文格式 PDF
正文语种 chi
中图分类自动推理、机器学习;
关键词
元学习; 强化学习; 最大熵;

相似文献

中文文献
外文文献
专利

1. 基于相对熵的元逆强化学习方法 [J] . 吴少波 ,傅启明 ,陈建平 . 计算机科学 . 2021,第009期
2. 一种基于信息熵的强化学习算法 [J] . 赵昀 ,陈庆伟 ,胡维礼 . 系统工程与电子技术 . 2010,第005期
3. 基于强化学习的移动视频流业务码率自适应算法研究进展 [J] . 杜丽娜 ,卓力 ,杨硕 . 通信学报 . 2021,第009期
4. 基于强化学习的DASH自适应码率决策算法研究 [J] . 冯苏柳 ,姜秀华 . 中国传媒大学学报（自然科学版） . 2020,第002期
5. 基于深度强化学习的异构云无线接入网自适应无线资源分配算法 [J] . 陈前斌 ,管令进 ,李子煜 . 电子与信息学报 . 2020,第006期
6. 基于强化学习的自适应变步长机器人路径规划算法 [C] . 涂自然 ,王维 ,梁以业 . 2003年中国智能自动化会议 . 2003
7. 基于强化学习的水声通信自适应调制算法研究 [A] . 李萍 . 2020

基于自适应调节策略熵的元强化学习算法

摘要

著录项

相似文献

相关主题

期刊订阅