您现在的位置: 首页> 研究主题> 深度强化学习

深度强化学习

深度强化学习的相关文献在2016年到2023年内共计2558篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、电工技术 等领域,其中期刊论文774篇、会议论文1篇、专利文献247641篇;相关期刊326种,包括系统工程与电子技术、电力系统自动化、电子与信息学报等; 相关会议1种,包括2017信息通信网技术业务发展研讨会等;深度强化学习的相关文献由7262位作者贡献,包括陈晋音、王雪柯、唐伦等。

深度强化学习—发文量

期刊论文>

论文:774 占比:0.31%

会议论文>

论文:1 占比:0.00%

专利文献>

论文:247641 占比:99.69%

总计:248416篇

深度强化学习—发文趋势图

深度强化学习

-研究学者

  • 陈晋音
  • 王雪柯
  • 唐伦
  • 李辉
  • 章燕
  • 陈希亮
  • 李贻斌
  • 胡书隆
  • 陈前斌
  • 余亮

深度强化学习

-相关会议

  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

作者

    • 黄万伟; 郑向雨; 张超钦; 王苏南; 张校辉
    • 摘要: 针对现有智能路由算法收敛速度慢、平均时延高、带宽利用率低等问题,提出了一种基于深度强化学习(DRL)的多路径智能路由算法RDPG-Route。该算法采用循环确定性策略梯度(RDPG)作为训练框架,引入长短期记忆网络(LSTM)作为神经网络,基于RDPG处理高纬度问题的算法优势,以及LSTM循环核中记忆体的存储能力,将动态变化的网络状态输入神经网络进行训练。算法训练收敛后,将神经网络输出的动作值作为网络链路权重,基于多路径路由策略进行流量划分,以实现网络路由的智能动态调整。最后,将RDPG-Route路由算法分别与ECMP、DRL-TE和DRL-R-DDPG路由算法进行对比。结果表明,RDPG-Route具有较好的收敛性和有效性,相比于其他智能路由算法至少降低了7.2%平均端到端时延,提高了6.5%吞吐量,减少了8.9%丢包率和6.3%的最大链路利用率。
    • 赵春领; 吴化腾
    • 摘要: 插电式柴电混合动力汽车具有多种工作模式,发动机频繁启停过程中会导致油耗增加和SCR催化器的效率降低,导致排放恶劣.以P2型插电式柴电混合动力汽车为研究对象,建立所需动力系统模型,将深度强化学习(Deep Reinforcement Learning,DRL)应用到插电式混合动力汽车能量管理中.采用TD3算法对PHEV油耗和排放进行综合优化,并将结果与动态规划算法(Dynamic Programming,DP)进行对比分析,结果表明:基于TD3算法的控制策略的油耗和NO_(X)排放量分别为2.477 L/km、0.2023 g/km,分别达到DP控制策略的94.1%和89.4%的控制效果,证明了提出的控制策略的有效性.
    • 贺雪梅; 匡胤; 杨志鹏; 杨亚乔
    • 摘要: 针对现有的AGV在大规模未知复杂环境中进行自主导航配送的问题,基于深度强化学习完成了AGV智能导航系统设计。首先,结合传感器对周围的障碍物进行探测感知,利用DDPG(deep deterministic policy gradient)算法实现AGV小车从环境的感知输入到动作的直接输出控制,帮助AGV完成自主导航和避障任务。此外,针对训练样本易受环境干扰的问题,提出了一种新颖的DL(disturb learning)-DDPG算法,通过对学习样本中相关数据进行高斯噪声预处理,帮助智能体适应噪声状态下的训练环境,提升了AGV在真实环境中的鲁棒性。仿真实验表明,经改进后的DL-DDPG算法能够为AGV导航系统提供更高效的在线决策能力,使AGV小车完成自主导航与智能控制。
    • 欧阳卓; 周思源; 吕勇; 谭国平; 张悦; 项亮亮
    • 摘要: 利用深度强化学习技术实现无信号灯交叉路口车辆控制是智能交通领域的研究热点。现有研究存在无法适应自动驾驶车辆数量动态变化、训练收敛慢、训练结果只能达到局部最优等问题。文中研究在无信号灯交叉路口,自动驾驶车辆如何利用分布式深度强化方法来提升路口的通行效率。首先,提出了一种高效的奖励函数,将分布式强化学习算法应用到无信号灯交叉路口场景中,使得车辆即使无法获取整个交叉路口的状态信息,只依赖局部信息也能有效提升交叉路口的通行效率。然后,针对开放交叉路口场景中强化学习方法训练效率低的问题,使用了迁移学习的方法,将封闭的8字型场景中训练好的策略作为暖启动,在无信号灯交叉路口场景继续训练,提升了训练效率。最后,提出了一种可以适应所有自动驾驶车辆比例的策略,此策略在任意比例自动驾驶车辆的场景中均可提升交叉路口的通行效率。在仿真平台Flow上对TD3强化学习算法进行了验证,实验结果表明,改进后的算法训练收敛快,能适应自动驾驶车辆比例的动态变化,能有效提升路口的通行效率。
    • 李鹏; 易修文; 齐德康; 段哲文; 李天瑞
    • 摘要: 在中国北方,冬季楼宇集中供暖采用的策略通常为气候补偿器,但是该策略严重依赖人工经验,调节相对粗放,如何优化供热控制策略对于保持楼宇室温的稳定舒适十分重要。对此,提出了一种基于深度学习的供热策略优化方法,通过学习历史真实数据信息从而对原始控制策略进行优化。首先以学习室内温度变化的热力学规律为目标,提出了一种深度多时差分网络MTDN(Multiple Time Difference Network)来对下一时刻的室温进行预测,该网络不仅准确率高,而且符合物理规律;然后将MTDN当成模拟器,以表征人体热反应的评价指标作为相关奖励项,使用基于最大熵强化学习思想的SAC(Soft Actor Critic)算法作为策略优化器与之交互训练,从而学习到一个稳定优秀的供热控制策略;最后基于天津某个换热站的真实数据,设计相关实验分别对模拟器预测能力和策略优化器策略控制能力进行评估。验证得出:相比其他类型的预测模拟器,该模拟器不仅预测精度高,并且符合物理规律;同时,相比原始策略,该策略优化器所学的策略在随机采样的多个时段内均可以保证室内温度更加稳定舒适。
    • 张先超; 赵耀; 叶海军; 樊锐
    • 摘要: 针对无线网络多用户互相干扰的问题,通过对发射功率进行智能控制,实现干扰管理,保证多用户通信服务质量。首先,考虑复杂动态无线信道环境,建立以无线通信系统加权数据速率最大化为目标的发射功率控制模型。其次,设计以深度强化学习"行动器-评判器"为基本架构的智能发射功率控制算法,缩短功率控制决策时间。仿真验证表明,所提算法收敛速度快,在10对收发机场景下,计算时间缩短到传统最优算法的1/4。
    • 马东方; 陈曦; 吴晓东; 金盛
    • 摘要: 交通拥堵已成为很多大中城市普遍存在的社会问题。信号控制作为缓堵保畅的重要措施之一,愈发受到社会关注。信号优化手段可分为模型驱动和数据驱动两类,且随着交通大数据的不断充实,基于强化学习的数据驱动方法日益成为新兴发展方向。然而,现有数据驱动类研究主要偏重于决策模型设计,缺乏对智能体结构的探讨;同时,在多路口协同方面多采用分布式策略,忽略了智能体之间信息交互,无法保障区域层面的整体最优性。为此,本文以干线信号为对象,构建一种多智能体混合式协同决策的信号优化方法。首先,针对交通状态的多样性、异构性及数据不均衡性,设计分布训练-分区记忆的单智能体决策模型,并优化状态空间和回报函数,界定单路口控制的最佳方案;其次,融合分布式和集中式学习的模型优势设计多智能体交互方法,在单路口分布式控制的基础上,设置中心智能体评价局部智能体的决策行为并反馈附加回报以调整局部智能体的决策模型,实现干线多信号的协同运行。最后,搭建仿真平台完成效果测试与算法对比。结果表明:新方法与独立优化和分布式协同相比,在支路交通流基本不受影响的前提下,干线停车次数分别降低了14.8%和13.6%,具有更好的控制效果。
    • 何祁栋
    • 摘要: 机器学习广泛应用于股票交易决策中。如何在交易过程中获得有效的市场信息,实现利益最大化和风险最小化,是一个值得长期研究的话题。基于深度强化学习的传统交易模型无法提前识别剧烈的股价波动,导致投资收益不稳定。本文提出了一种结合趋势的深度强化学习股票交易模型,选取根据趋势指标RSI指数调整后特定条件下的利润作为奖励函数,模型能有效识别股价波动风险,获得稳定收益增长。实验选取中国股市的3只股票进行模拟交易,与对照组相比,本文结合趋势的深度强化学习模型训练良好,在实验期间的平均年回报更高,年波动率更低,且夏普比率更好。通过实验数据验证了模型的稳定性和有效性。
    • 谢亚楠; 周森鑫
    • 摘要: 随着城镇化建设的快速推进,园林工程项目的规模以及复杂程度也在日益增长,然而传统计算工程项目关键路线的方法由于自身的局限性,很难在规模大的项目中找出最优路线。因此,在工程网络图的基础上,提出基于DQN(Deep Q Network)的工程进度管理方法,通过构建神经网络,将大量的历史数据输入进去,让计算机来计算关键线路,进而预测施工周期,并以某公园为例进行实验仿真分析。实验表明此算法在应对规模较大的项目时,计算关键线路更加准确,效率也更高,可以帮助施工单位快速找到最优策略,有效减少由于不确定性因素造成的工期延误以及资金的损失。
    • 桓琦; 谢小权; 郭敏; 曾颖明
    • 摘要: 针对基于深度强化学习(deep reinforcement learning, DRL)的激光导航系统的安全性进行研究,首次提出了对抗地图的概念,并在此基础上提出了一种物理对抗攻击方法.该方法使用对抗样本生成算法计算激光测距传感器上的对抗扰动,然后修改原始地图实现这些扰动,得到对抗地图.对抗地图可以在某个特定区域诱导智能体偏离最优路径,最终使机器人导航失败.在物理仿真实验中,对比了智能体在多个原始地图和对抗地图的导航结果,证明了对抗地图攻击方法的有效性,指出了目前DRL技术应用在导航系统上存在的安全隐患.
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号