基于轨迹感知的稀疏奖励探索方法

张启阳; 陈希亮; 张巧

首页> 中文期刊> 《计算机科学》 >基于轨迹感知的稀疏奖励探索方法

基于轨迹感知的稀疏奖励探索方法

AI论文写作 >>

开具论文收录证明 >>

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

现有的深度强化学习算法在处理稀疏奖励问题时常常会导致探索困难的问题,其往往只依赖于预先设计好的环境奖励,从而难以取得较好的效果。在这种场景中,需要更加细致地设计奖励,对智能体的探索状态做出更精准的判断并反馈。异步优势表演者评论家算法(Asynchronous Advantage Actor-Critic,A3C)通过并行训练来提升训练效率,提升了原有算法的训练速度,但是对于奖励稀疏的环境,其不能很好地解决探索困难的问题。针对A3C算法在稀疏奖励环境中探索效果不佳的问题,提出了一种基于探索轨迹自动感知的A3C算法(Exploration Trajectory Perception A3C,ETP-A3C)。该算法在训练中探索困难时能够感知智能体的探索轨迹,进一步判断并决策智能体的探索方向,帮助智能体尽快走出探索困境。为了验证ETP-A3C算法的有效性,将其与基线算法在超级马里奥兄弟中的5个不同环境中进行了对比实验,结果表明,所提算法在学习速度和模型稳定性上均有较明显的提升。

著录项

来源
《计算机科学》 |2023年第1期|262-269|共8页
作者
张启阳; 陈希亮; 张巧;
展开▼
作者单位

陆军工程大学指挥控制工程学院;

展开▼
原文格式 PDF
正文语种 chi
中图分类自动推理、机器学习;
关键词
人工智能; 知识迁移; 深度强化学习; A3C算法; 探索-利用问题;

相似文献

中文文献
外文文献
专利

1. 稀疏环境下基于假轨迹的轨迹隐私保护方法 [J] . 黄景 ,柳毅 . 计算机科学与应用 . 2022,第1期
2. 基于贝叶斯网络的稀疏出租车GPS轨迹路径还原方法 [J] . 李广耀 ,黄正锋 ,楼乐依 . 宁波大学学报（理工版） . 2021,第002期
3. 一种基于插值技术高精度计算稀疏网格地震定位中震源轨迹的方法 [J] . 赵爱华 . 地球物理学报 . 2021,第007期
4. 基于稀疏轨迹聚类的旅游目的地位置预测方法 [J] . 刘涵 . 河北北方学院学报（社会科学版） . 2021,第003期
5. 基于稀疏采样GPS轨迹数据的路口识别方法 [J] . 陈亚玲 ,范太华 . 计算机工程 . 2019,第005期
6. 基于压缩感知与稀疏反演的低频补偿方法研究 [C] . 刘炳杨 ,张彬彬 ,梁鸿贤 . 中国石油学会2013年物探技术研讨会 . 2013

基于轨迹感知的稀疏奖励探索方法

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅