基于生成对抗网络的最大熵逆强化学习

陈建平; 陈其强; 傅启明; 高振; 吴宏杰; 陆悠

首页> 中文期刊>计算机工程与应用 >基于生成对抗网络的最大熵逆强化学习

基于生成对抗网络的最大熵逆强化学习

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

针对逆强化学习算法在训练初期由于专家样本稀疏所导致的学习速率慢的问题,提出一种基于生成对抗网络(Generative Adversarial Networks,GAN)的最大熵逆强化学习算法。在学习过程中,结合专家样本训练优化生成对抗网络,以生成虚拟专家样本,在此基础上利用随机策略生成非专家样本,构建混合样本集,结合最大熵概率模型,对奖赏函数进行建模,并利用梯度下降方法求解最优奖赏函数。基于所求解的最优奖赏函数,利用正向强化学习方法求解最优策略,并在此基础上进一步生成非专家样本,重新构建混合样本集,迭代求解最优奖赏函数。将所提出的算法与MaxEnt IRL算法应用于经典的Object World与Mountain Car问题,实验表明,该算法在专家样本稀疏的情况下可以较好地求解奖赏函数,具有较好的收敛性能。

著录项

来源
《计算机工程与应用》|2019年第22期|119-126|共8页
作者
陈建平; 陈其强; 傅启明; 高振; 吴宏杰; 陆悠;
展开▼
作者单位

苏州科技大学电子与信息工程学院江苏苏州 215009;

苏州科技大学江苏省建筑智慧节能重点实验室江苏苏州 215009;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
生成对抗网络(GAN); 逆强化学习; 最大熵;
入库时间 2023-07-24 17:05:53

相似文献

中文文献
外文文献
专利

1. 一种基于生成对抗网络的强化学习算法 [J] . 陈建平 ,邹锋 ,刘全 . 计算机科学 . 2019,第010期
2. 基于相对熵的元逆强化学习方法 [J] . 吴少波 ,傅启明 ,陈建平 . 计算机科学 . 2021,第009期
3. 基于逆强化学习的示教学习方法综述 [J] . 张凯峰 ,俞扬 . 计算机研究与发展 . 2019,第002期
4. 基于逆强化学习的空战态势评估函数优化方法 [J] . 李银通 ,韩统 ,孙楚 . 火力与指挥控制 . 2019,第008期
5. 基于特征优化生成对抗网络的在线交易反欺诈方法研究 [J] . 张浩 ,康海燕 . 郑州大学学报（理学版） . 2022,第001期
6. 基于逆最优的光伏并网逆变控制 [C] . Zhang Xiaomin ,张小敏 ,Zhang Guangru . 第七届海峡论坛·2015海峡两岸智能电网暨清洁能源技术研讨会 . 2015
7. 基于最大熵模型对强化学习的优化和改进 [A] . 蒋凯 . 2020

基于生成对抗网络的最大熵逆强化学习

摘要

著录项

相似文献

相关主题

期刊订阅