您现在的位置: 首页> 研究主题> Q学习

Q学习

Q学习的相关文献在1985年到2023年内共计76659篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、电工技术 等领域,其中期刊论文421篇、会议论文18篇、专利文献76220篇;相关期刊209种,包括计算机工程、计算机工程与设计、计算机工程与应用等; 相关会议17种,包括第23届过程控制会议、第八届中国计算机图形学大会、第29届中国控制会议等;Q学习的相关文献由50000位作者贡献,包括不公告发明人、刘洋、焦李成等。

Q学习—发文量

期刊论文>

论文:421 占比:0.55%

会议论文>

论文:18 占比:0.02%

专利文献>

论文:76220 占比:99.43%

总计:76659篇

Q学习—发文趋势图

  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

作者

    • 饶宁; 许华; 宋佰霖
    • 摘要: 为进一步提升基于值函数强化学习的智能干扰决策算法的收敛速度,增强战场决策的有效性,设计了一种融合有效方差置信上界思想的改进Q学习智能通信干扰决策算法.该算法在Q学习算法的框架基础上,利用有效干扰动作的价值方差设置置信区间,从干扰动作空间中剔除置信度较低的干扰动作,减少干扰方在未知环境中不必要的探索成本,加快其在干扰动作空间的搜索速度,并同步更新所有干扰动作的价值,进而加速学习最优干扰策略.通过将干扰决策场景建模为马尔科夫决策过程进行仿真实验,所构造的干扰实验结果表明:当通信方使用干扰方未知的干扰躲避策略变更通信波道时,与现有基于强化学习的干扰决策算法相比,该算法在无通信方的先验信息条件下,收敛速度更快,可达到更高的干扰成功率,获得更大的干扰总收益.此外,该算法还适用于"多对多"协同对抗环境,可利用动作剔除方法降低联合干扰动作的空间维度,相同实验条件下,其干扰成功率比传统Q学习决策算法高50%以上.
    • 张军凯; 李欣; 赵娟; 巩金海; 程龙雪
    • 摘要: 深度自动编码与Q学习针对移动机器人路径规划的方法提供了全新的思路,利用神经网络的自适应能力,应用梯度下降法等算法计算权值与权重,实现对移动机器人的路径规划。移动机器人通过算法实现的初始化与卷积训练可以使机器人具备较强的交互能力,基于二者建造的移动机器人模型具有良好的并行性、容错性,同时能较快地处理高维数的数据,从而为移动机器人的路径规划贡献力量。
    • 叶锦坤; 饶苏敏; 黄华颖; 潘一叶; 杨波
    • 摘要: 提出一种新的基于Q学习和区块链的配网智能保护方案,可对不同类型的故障进行识别和隔离。Q学习算法被用来训练执行代理在故障识别和清除过程中做出可靠决策。此外,代理之间采用基于区块链的分散式连接进行信息交换。在MATLAB和JADE平台上对该保护方法进行了仿真,结果表明该方法对多类型故障具有较高的可预测性和处理速度。
    • 彭云建; 梁进
    • 摘要: 针对移动智能体在未知环境下的路径规划问题,提出了基于探索-利用权衡优化的Q学习路径规划。对强化学习方法中固有的探索-利用权衡问题,提出了探索贪婪系数ε值随学习幕数平滑衰减的εDBE(ε-decreasing based episodes)方法和根据Q表中的状态动作值判断到达状态的陌生/熟悉程度、做出探索或利用选择的AεBS(adaptive ε based state)方法,这一改进确定了触发探索和触发利用的情况,避免探索过度和利用过度,能加快找到最优路径。在未知环境下对基于探索-利用权衡优化的Q学习路径规划与经典的Q学习路径规划进行仿真实验比较,结果表明该方法的智能体在未知障碍环境情况下具有快速学习适应的特性,最优路径步数收敛速度更快,能更高效实现路径规划,验证了该方法的可行性和高效性。
    • 杨悦; 王丹; 胡博; 王鹤; 罗桓桓
    • 摘要: 随着新能源渗透率的不断提高,只依靠传统火电机组无法满足新型电力系统的调频需求,所以多源联合调频成为缓解当前电网频率波动问题的主要措施。因此,提出了基于改进多智能体Q学习的多源最优联合调频方法。首先,分析各类型能源的调频特性并设计联合调频系统的控制策略。其次,将多智能体Q学习算法进行改进,选取预学习结果作为算法的初始矩阵并在贪婪策略基础上引入搜索因子,极大提高了算法的优化效果、缩短了运行时间。最后,利用算法的动态决策能力与PSCAD/EMTDC模型进行联合仿真并在两种负荷扰动条件下进行验证。结果表明该方法可以最大限度地减小系统频率波动,缩短调频所需时间,为一次调频提供了有利条件。
    • 张然; 高莹雪; 赵钰; 丁元明
    • 摘要: 在微纳卫星网络中,传统蚁群路由算法不能同时保证数据传输的安全性和网络业务的服务质量,且易陷入局部最优解,收敛速度较慢。为解决上述问题,提出一种实现多目标优化的Q学习量子蚁群路由算法。该算法在选择下一跳节点的转移概率时,将路径的平均信任值和路径的费用作为两个优化目标,构成最优路径的节点性能指标,保证数据传输的安全性和网络业务服务质量。在考虑路径费用函数时,将量子计算引入到状态转移概率计算中,避免陷入局部最优解,并在算法中引入Q学习的思想,将信息素映射成Q学习的Q值,强化算法在动态环境中的学习能力,以提高路由的整体性能。仿真结果表明,与蚁群优化算法和改进的蚁群多约束路由算法相比, Q学习量子蚁群路由算法明显改善包投递率、平均端到端时延和节点平均能耗等性能指标,避免了蚁群算法易陷入局部最优解,提高了收敛速度,可适用于具有高速移动节点的微纳卫星网络。
    • 赵蓓英; 姬伟峰; 翁江; 吴玄; 李映岐
    • 摘要: 无人机自组织网络(FANET)是实现无人机自主集群的关键技术,其通过各无人机节点来完成协同通信。但节点的高机动性、网络结构的开放性造成FANET拓扑变化频繁,容易遭受恶意攻击。为此,提出一种基于启发式Q学习的可信路由算法HQTR。将FANET中的路由选择问题映射为有限马尔科夫决策过程,针对路由层面的黑洞攻击与泛洪攻击,引入数据包转发率与路由请求发送速率,通过模糊推理计算节点的信任值,同时考虑节点的邻居关系,提出一种模糊动态信任奖励机制。结合单跳链路状况设计启发式函数,采用改进的ε-贪婪策略来平衡利用-探索过程,引导当前节点选择最优可信下一跳节点。仿真结果表明,相对AOMDV、TEAOMDV与ESRQ算法,HQTR算法能够有效应对黑洞攻击与RREQ泛洪攻击,降低节点高速运动与网络规模变化所造成的影响,提高数据包投递率与吞吐量,减少路由开销与平均端到端时延。
    • 李永刚; 王月; 吴滨源
    • 摘要: 准确的风速预测对新能源并网稳定运行具有重要意义。为提高风速预测精度,该文构建基于双重Q学习的动态风速预测模型。首先,构建由五种基础预测算法组成的风速Q学习模型集,充分考虑风速波动情况和属性因素,通过Q学习强化学习算法选取出每时段的最佳预测模型,得到初步的风速预测结果;然后,基于风速预测结果计算预测误差,构建第二阶段的误差Q学习模型库,筛选该模型库中的最佳模型,以修正初步预测值,对误差进行校正,得到最终的预测结果;最后,通过对实际风场不同季节的风速进行预测,验证所提方法的有效性。
    • 杨伟康; 许小东
    • 摘要: 基于非正交多址接入(NOMA)的Q学习(Q-Learning)随机接入方法(NORA-QL)是实现物联网中海量设备泛在接入的一项有效技术。为了解决NORA-QL方法仍存在的传输能效和过载容量较低的问题,提出了一种适合卫星通信网络的改进方法(I-NORA-QL)。针对传输功耗高的问题,I-NORA-QL利用卫星广播的全局信息改进Q学习的学习策略,将用户发射功率用于奖励函数的构造,同时将学习速率设计为与算法迭代次数相关的衰减函数。I-NORA-QL进一步在接入类别限制ACB(Access Class Barring)的基础上,基于学习过程中的Q值特性和负载估计实现ACB限制因子的自适应调整以进行过载控制。仿真结果表明,提出的I-NORA-QL改进方法相比于现有其他方法,能够有效降低用户设备的平均功耗,且在系统过载状态下可以显著提高吞吐量。
    • 范静宇; 刘全
    • 摘要: 强化学习是机器学习中一个重要的分支,随着深度学习的发展,深度强化学习逐渐发展为强化学习研究的重点。因应用广泛且实用性较强,面向连续控制问题的无模型异策略深度强化学习算法备受关注。同基于离散动作的Q学习一样,类行动者-评论家算法会受到动作值高估问题的影响。在类行动者-评论家算法的学习过程中,剪切双Q学习可以在一定程度上解决动作值高估的问题,但同时也引入了一定程度的低估问题。为了进一步解决类行动者-评论家算法中的高低估问题,提出了一种新的随机加权三重Q学习方法。该方法可以更好地解决类行动者-评论家算法中的高低估问题。此外,将这种新的方法与软行动者-评论家算法结合,提出了一种新的基于随机加权三重Q学习的软行动者-评论家算法,该算法在限制Q估计值在真实Q值附近的同时,通过随机加权方法增加Q估计值的随机性,从而有效解决了学习过程中对动作值的高低估问题。实验结果表明,相比SAC算法、DDPG算法、PPO算法与TD3算法等深度强化学习算法,SAC-RWTQ算法可以在gym仿真平台中的多个Mujoco任务上获得更好的表现。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号