基于自回归预测模型的深度注意力强化学习方法

梁星星; 冯旸赫; 黄金才; 王琦; 马扬; 刘忠

首页> 中文期刊> 《软件学报》 >基于自回归预测模型的深度注意力强化学习方法

基于自回归预测模型的深度注意力强化学习方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

cqvip:近年来,深度强化学习在各种决策、规划问题中展示了强大的智能性和良好的普适性,出现了诸如AlphaGo、OpenAI Five、Alpha Star等成功案例.然而,传统深度强化学习对计算资源的重度依赖及低效的数据利用率严重限制了其在复杂现实任务中的应用.传统的基于模型的强化学习算法通过学习环境的潜在动态性,可充分利用样本信息,有效提升数据利用率,加快模型训练速度,但如何快速建立准确的环境模型是基于模型的强化学习面临的难题.结合基于模型和无模型两类强化学习的优势,提出了一种基于时序自回归预测模型的深度注意力强化学习方法.利用自编码模型压缩表示潜在状态空间,结合自回归模型建立环境预测模型,基于注意力机制结合预测模型估计每个决策状态的值函数,通过端到端的方式统一训练各算法模块,实现高效的训练.通过CartPole-V0等经典控制任务的实验结果表明,该模型能够高效地建立环境预测模型,并有效结合基于模型和无模型两类强化学习方法,实现样本的高效利用.最后,针对导弹突防智能规划问题进行了算法实证研究,应用结果表明,采用所提出的学习模型可在特定场景取得优于传统突防规划的效果.

著录项

来源
《软件学报》 |2020年第4期|948-966|共19页
作者
梁星星; 冯旸赫; 黄金才; 王琦; 马扬; 刘忠;
展开▼
作者单位

国防科技大学系统工程学院湖南长沙410072;

展开▼
原文格式 PDF
正文语种 chi
中图分类程序设计、软件工程;
关键词
注意力机制; 深度强化学习; actor-critic算法; 变分自动编码; 混合密度网络-循环神经网络;

相似文献

中文文献
外文文献
专利

1. 基于双深度网络的安全深度强化学习方法 [J] . 朱斐 ,吴文 ,伏玉琛 . 计算机学报 . 2019,第008期
2. 基于元深度强化学习方法的智能博弈决策模型研究 [J] . 徐志雄 ,曹雷 ,陈希亮 . 军事运筹与系统工程 . 2021,第003期
3. 基于改进深度强化学习方法的单交叉口信号控制 [J] . 刘志 ,曹诗鹏 ,沈阳 . 计算机科学 . 2020,第012期
4. 基于加权密集连接卷积的深度强化学习方法总结 [J] . 刘朋硕 . 电子世界 . 2018,第013期
5. 基于加权密集连接卷积网络的深度强化学习方法 [J] . 夏旻 ,宋稳柱 ,施必成 . 计算机应用 . 2018,第008期
6. 基于强化学习方法的ATM拥塞控制器的设计 [C] . 李鑫 ,井元伟 . 2007中国控制与决策学术年会 . 2007
7. 基于注意力机制的深度学习方法在医学图像分析应用的研究 [A] . 徐卿 . 2021

基于自回归预测模型的深度注意力强化学习方法

摘要

著录项

相似文献

相关主题

期刊订阅