您现在的位置: 首页> 研究主题> Q学习算法

Q学习算法

Q学习算法的相关文献在2000年到2023年内共计1236篇,主要集中在自动化技术、计算机技术、电工技术、公路运输 等领域,其中期刊论文103篇、会议论文10篇、专利文献125566篇;相关期刊83种,包括吉林大学学报(工学版)、现代电子技术、计算机工程等; 相关会议10种,包括2016年全国通信软件学术会议、第七届海峡论坛·2015海峡两岸智能电网暨清洁能源技术研讨会、2014中华医院信息网络大会等;Q学习算法的相关文献由3988位作者贡献,包括路廷文、杨勇、不公告发明人等。

Q学习算法—发文量

期刊论文>

论文:103 占比:0.08%

会议论文>

论文:10 占比:0.01%

专利文献>

论文:125566 占比:99.91%

总计:125679篇

Q学习算法—发文趋势图

  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

作者

    • 尤嘉铖
    • 摘要: 针对自动气象观测设备计算任务数据量大、存在时延等问题,文中开展了面向自动气象观测设备的移动边缘计算卸载算法的研究。首先,采用内点法对单服务器设备集群的时间延迟优化模型和能量消耗优化模型进行数据建模;其次,利用Lyapunov优化算法改善系统内的数据积压现象,并进行多服务器设备集群计算卸载算法的研究,从而实现时间延迟与能量消耗两个目标的联合优化;同时,使用Q学习算法完成了未有网络先验知识以及能量状态情况下最优卸载策略的求解。经过实验测试结果表明,文中所提方案将时间延迟与能量消耗均分别降低了23.2%和3.5%。
    • 董香栾; 赵琰; 王昱日
    • 摘要: 能源互联网由于分布式设备数量剧增,优化调度决策需要分析处理海量数据,对功率流的分析将会面临重重困难。分层优化是针对非线性高维问题及海量数据处理难题的解决策略,其基本思路是将系统按照一定标准,划分为若干层次,再按照系统物理特征划分为不同的区域,给每个区域分配智能体来负责设备的调控,重点研究考虑电、气、热系统结构的潮流分布。结合Q学习基本原理,详细研究了如何将能源互联网系统潮流转化为Q学习模型,并通过仿真算例分析,验证所提出算法的有效性。
    • 王炜发; 张大明; 代毅; 柯峰; 冯穗力
    • 摘要: 针对软件定义网络(SDN)的链路抗毁问题,为使数据传输具有更好的稳健性,设计了一个基于Q学习算法的抗毁策略。该策略选择以网络中每条链路的中断概率为衡量指标,通过Q学习算法,根据网络情况寻找一条中断概率低的路径作为备份路径,从而在网络传输出现故障时能够自动地切换为备份路径,实现抗毁性能的改善。将Q学习算法与现有的算法进行对比,并分析了各自的优劣性。实验仿真结果表明,相比于蚁群算法,Q学习算法的平均吞吐量可提高15%左右,网络传输的平均中断概率可降低38%;相比于最短路径算法(有备份),平均吞吐量提高16.5%,网络传输的平均中断概率降低43%。由此可见,文中所提基于Q学习的抗毁技术可大大提升SDN网络的抗毁性能。
    • 曹文凯; 洪杰; 袁也; 吴怀江; 姜冲
    • 摘要: 本文在分析强化学习工作机制的基础上,提出了一种基于强化学习算法的PID参数自整定方法。通过与其他算法的对比以及控制系统的鲁棒性分析,证明该算法具有良好的收敛性,能很好的满足控制任务要求。
    • 金则灵; 武晓春
    • 摘要: 牵引能耗是列车能耗的主要组成部分,针对城轨列车节能运行的问题,将列车运行状态离散化,以列车对速度控制作为动作空间,时间和能耗作为奖励函数,提出一种基于Q学习算法的城轨列车智能控制策略。在不使用离线优化速度曲线的情况下,根据列车当前位置和速度实时计算最优控制策略;同时,在传统Q学习基础上,将ε-greedy策略与司机驾驶经验相结合,减少探索次数,提高算法学习效率;最后,以杭州地铁5号线三坝-萍水站线路为例,验证该算法在满足准点运行的情况下,较传统动态规划算法,可减少列车站间牵引能耗3.79%。在原线路增加临时限速后,验证该算法仍具有实效性。
    • 施俊庆; 陈林武; 林柏梁; 孟国连; 夏顺娅
    • 摘要: 针对摘挂列车编组调车作业计划编制问题,基于强化学习技术和Q学习算法,提出1种调车作业计划优化方法。在表格调车法的基础上,将调车作业计划分为下落和重组2个部分。通过动作、状态和奖励3要素构建调车作业问题的强化学习模型,以调车机车为智能体,以车组下落的股道编号为动作,以待编车列的下落情况为状态,形成车组挂车、摘车具体条件和车辆重组流程,并依据车组下落的连接状态和车辆重组后产生的总调车程设计奖励函数。改进Q学习算法求解模型,以最小化调车程为目标,建立待编车列与最优调车作业计划之间的映射关系,智能体学习充分后即可求解得到最优的调车作业计划。通过3组算例对比验证本方法效果,结果表明:相较于统筹对口法和排序二叉树法,本方法使用的股道数量更少、调车作业计划更优;相较于分支定界法,本方法可在更短时间内求解质量近似的调车作业计划。因而,本方法有助于提高车站调车作业计划编制的智能化决策水平。
    • 祁玉青; 赵兴雷; 赵田东杰
    • 摘要: 企业为了稳定货源和供货关系,常与供应商签订一定时期的框架性协议。为了解决零售商在框架协议下采购报童产品的问题,本文运用强化学习建立库存决策模型并使用Q学习算法求取较优订货策略。通过生成样本随机数来模拟需求量,对比研究Q学习算法订货和传统方法订货的差别。通过多次数值实验,发现使用强化学习方法订货相比于传统订货方法(定量订货法、移动平均预测、指数平滑法)平均利润提高约7%~22%,且多次实验下强化学习方法订货相比于理想状态的平均利润相差约8%。这些发现验证了强化学习解决库存问题的有效性和可行性。本文还研究了相关参数变化对总利润的影响,发现利润随着贪婪率(ε)增加而降低、随着学习率(α)的增加而增加。该结论能够为解决相关库存问题提供新的思路。
    • 刘贞报; 马博迪; 高红岗; 院金彪; 江飞鸿; 张军红; 赵闻
    • 摘要: 针对无人机影像目标跟踪过程中常出现的目标方向变化、目标遮挡变化、样本多样性不足等问题,提出了一种基于形态自适应网络的无人机航空影像目标跟踪算法.首先使用基于数据驱动的方法对数据集进行扩增,添加了遮挡样本和多旋转角度样本,提高样本多样性;提出的形态自适应网络模型通过旋转不变约束改进深度置信网络,提取强表征能力的深度特征,使得模型能够自动适应目标形态变化,利用深度特征变换算法获取待检测目标的预定位区域,采用基于Q学习算法的搜索机制对目标进行自适应精准定位,使用深度森林分类器提取跟踪目标的类别信息,得到高精度的目标跟踪结果.在多个数据集上进行了对比实验,实验结果表明该算法能够达到较高的跟踪精度,可以适应目标旋转、目标遮挡等形态变化情况,具有较好的准确性和鲁棒性.
    • 蒋宝庆; 陈宏滨
    • 摘要: 针对无人机辅助采集无线传感器网络数据时各节点数据产生速率随机和汇聚节点状态不一致的场景,提出基于Q学习的非连续无人机轨迹规划算法Q-TDUD,以提高无人机能量效率和数据采集效率.基于各节点在周期内数据产生速率的随机性建立汇聚节点的汇聚延时模型,应用强化学习中的Q学习算法将各汇聚节点的延迟时间和采集链路的上行传输速率归一化到奖励函数中,通过迭代计算得到最佳非连续无人机飞行轨迹.实验结果表明,与TSP-continues、TSP、NJS-continues和NJS算法相比,Q-TDUD算法能够缩短无人机的任务完成时间,提高无人机能效和数据采集效率.
    • 杜华明; 李冬梅; 刘禹; 王冬松
    • 摘要: 以BIM模型的数据结构为基础,融合建筑设计静态数据、室内环境数据和设备运行数据,采用自适应动态规划方法,建立基于BIM的建筑-环境-运行数据多元表达模型,构建面向环境舒适度与建筑能效提升的建筑运行节能管理系统.并通过实例验证测试,评估系统在建筑运行节能中的有效性.
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号