您现在的位置: 首页> 研究主题> 强化学习

强化学习

强化学习的相关文献在1986年到2023年内共计7005篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、中国共产党 等领域,其中期刊论文2378篇、会议论文77篇、专利文献202992篇;相关期刊915种,包括系统工程与电子技术、计算机仿真、计算机工程等; 相关会议62种,包括第十二届中国智能交通年会、福建省电机工程学会第十六届学术年会、2012年第14届中国系统仿真技术及其应用学术年会等;强化学习的相关文献由16304位作者贡献,包括刘全、傅启明、余涛等。

强化学习—发文量

期刊论文>

论文:2378 占比:1.16%

会议论文>

论文:77 占比:0.04%

专利文献>

论文:202992 占比:98.81%

总计:205447篇

强化学习—发文趋势图

强化学习

-研究学者

  • 刘全
  • 傅启明
  • 余涛
  • 俞扬
  • 高阳
  • 肖亮
  • 陈晋音
  • 陈刚
  • 周志华
  • 陈建平
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

作者

    • 张得祥; 王海荣; 钟维幸; 郭瑞萍
    • 摘要: 基于强化学习的方法在知识图谱补全任务中虽然具有较好的表现,但存在智能体得到的指导奖励质量偏低、关系路径判定易错等问题.为此,提出一种融合软奖励和退出机制的对抗学习推理方法(WGAN reward and exit,WGAN-RE),在生成式对抗网络中引入软奖励和动作退出机制.利用知识嵌入模型构建外部软奖励机制,增强强化学习过程中的奖励机制;利用动作退出机制对路径上的中间实体随机掩盖外向边,并强制搜索路径集,稀释无意义路径的影响.在FB15K-237和NELL-995数据集上与多种强化学习方法进行对比实验,结果表明,所提方法的路径搜索成功率最高,在事实预测和链接预测任务上其性能均有显著提升.
    • 饶宁; 许华; 宋佰霖
    • 摘要: 为进一步提升基于值函数强化学习的智能干扰决策算法的收敛速度,增强战场决策的有效性,设计了一种融合有效方差置信上界思想的改进Q学习智能通信干扰决策算法.该算法在Q学习算法的框架基础上,利用有效干扰动作的价值方差设置置信区间,从干扰动作空间中剔除置信度较低的干扰动作,减少干扰方在未知环境中不必要的探索成本,加快其在干扰动作空间的搜索速度,并同步更新所有干扰动作的价值,进而加速学习最优干扰策略.通过将干扰决策场景建模为马尔科夫决策过程进行仿真实验,所构造的干扰实验结果表明:当通信方使用干扰方未知的干扰躲避策略变更通信波道时,与现有基于强化学习的干扰决策算法相比,该算法在无通信方的先验信息条件下,收敛速度更快,可达到更高的干扰成功率,获得更大的干扰总收益.此外,该算法还适用于"多对多"协同对抗环境,可利用动作剔除方法降低联合干扰动作的空间维度,相同实验条件下,其干扰成功率比传统Q学习决策算法高50%以上.
    • 赵沛尧; 黄蔚
    • 摘要: 传统的约束马尔可夫决策过程(constrained Markov decision process,CMDP)模型用来解决多目标决策的困难,但该模型缺乏通用性并且只适用于离散环境.为了解决这一问题,提出一种基于CMDP的改进算法CRODP,与强化学习(reinforcement learning,RL)算法结合,将带约束问题建模为拉格朗日公式,其中包含着深度强化学习的策略参数.然后进一步推导出模型参数的更新公式,并将其作为深度强化学习神经网络的损失函数.模型在学习过程中动态调整约束与主要目标之间的权重以确保最终策略符合给定的约束.在若干机器人平台上与基准的深度强化学习算法进行比较,显示本算法得出的最优策略能够更好地满足相应约束.
    • 陈共驰; 荣欢; 马廷淮
    • 摘要: 技术旨在凝练给定文本,以篇幅较短的摘要有效反映出原文核心内容。现阶段,生成型文本摘要技术因能够以更加灵活丰富的词汇对原文进行转述,已成为文本摘要领域的研究热点。然而,现有生成型文本摘要模型在产生摘要语句时涉及对原有词汇的重组与新词的添加,易造成摘要语句不连贯、可读性低。此外,通过传统基于已标注数据的有监督训练提升摘要语句连贯性,需投入较高的数据成本,致使实际应用受限。为此,提出了一种面向连贯性强化的无真值依赖文本摘要(生成)模型(ATS;G)。该模型在仅给定原文本的限制条件下,一方面,基于原文本的编码结果,产生语句抽取标识,刻画对原文关键信息的筛选过程,由解码器对筛选后的语句编码进行解码;另一方面,基于解码器输出的原始词汇分布,分别按"概率选择"与按"Softmax-贪婪选择"产生两类摘要文本。综合语句连贯性与语句内容两方面,构建两类摘要文本的总体收益后,利用自评判策略梯度,引导模型学习关键语句筛选以及对所筛选关键语句进行解码,生成语句连贯性高、内容质量好的摘要文本。实验表明,即便不给定任何事先标注的摘要真值,所提出模型的摘要内容指标总体上仍优于现有文本摘要方法;与此同时,ATS;G生成的摘要文本在语句连贯性、内容重要性、信息冗余性、词汇新颖度和摘要困惑度方面亦优于现有方法。
    • 王建华; 吴杨霄; 李新伟; 齐蕊; 崔澂
    • 摘要: 针对进攻战斗火线伤员收拢前接时效救治需要,综合考虑战场装甲救护车数量、营救护站到火线伤员集伤点距离、不同伤势伤员人数等复杂环境条件,以伤员平均等待救治时间最短为优化目标,建立基于强化学习的装甲救护车火线伤员收拢前接策略模型,并进行优化求解计算。实验结果表明,将强化学习应用于装甲救护车火线伤员收拢前接中,有助于提升火线伤员救治效率。
    • 李传煌; 陈泱婷; 唐晶晶; 楼佳丽; 谢仁华; 方春涛; 王伟明; 陈超
    • 摘要: 针对软件定义网络(SDN)链路故障发生时的路由收敛问题,提出了Q-Learning子拓扑收敛技术(QL-STCT)实现软件定义网络链路故障时的路由智能收敛。首先,选取网络中的部分节点作为枢纽节点,依据枢纽节点进行枢纽域的划分。然后,以枢纽域为单位构建区域特征,利用特征提出强化学习智能体探索策略来加快强化学习收敛。最后,通过强化学习构建子拓扑网络用于规划备用路径,并保证在周期窗口内备用路径的性能。实验仿真结果表明,所提方法能够有效提高链路故障网络的收敛速度与性能。
    • 周国峰; 严大卫; 梁卓
    • 摘要: 冲压发动机飞行器爬升过程中发动机性能随飞行状态时变,且易受动力性能偏差、气动偏差和风干扰的耦合影响,传统的方法难以给出能量最优的爬升段轨迹解。针对该问题,提出了一种基于强化学习的轨迹优化控制方法。首先构建了基于近端策略优化(PPO)的强化学习任务模型,将轨迹优化问题转化为基于状态给出最优动作策略的强化学习问题,提出了对未到达目标区域样本赋予广义距离奖励的方法来解决奖励稀疏性问题;通过在控制器训练中引入初值采样来降低初值敏感性;提出了将线性扩张状态观测器(LESO)与强化学习相结合的方法,通过对干扰进行观测和补偿提升控制器抗干扰能力。仿真结果表明,采用所提出的算法后,终端约束误差缩小了60%,可为复杂环境下的冲压发动机轨迹优化控制提供参考。
    • 王帅; 洪振宇
    • 摘要: 目的针对因行李随旅客无序抵达而无法提前得知行李尺寸信息的机场行李装箱问题,以行李车的装箱空间利用率为优化目标,提出基于强化学习的行李在线装箱方法。方法首先,根据机场行李装箱的实际情况,建立行李装箱的数学模型;接着,针对行李在行李车内寻找合适装箱位置和姿态的问题,设计行李装箱位置选择方法和装箱姿态评价方法;最后,借助强化学习的"试错"学习模式,通过训练行李装箱模型获得行李在线装箱策略。结果在仿真实验中文中算法的行李车空间利用率能够达到82.9%,计算耗时0.39 s,这2项指标均优于机器学习算法。结论在求解机场行李在线装箱问题上具有较好的实用性。
    • 彭艺; 朱桢以; 魏翔; 谢钊萍
    • 摘要: 为了解决频谱资源利用率低的问题,引入了认知无线网络的概念。在认知无线网络中,次要用户可以在不影响主要用户正常工作的前提下机会性地接入授权频段,故精确地感知频谱的状态并快速准确地接入授权频段就显得尤为重要。由于网络中存在干扰和阴影衰落等因素,传统的频谱感知效果不理想。本文引入了协作频谱感知技术,通过强化学习算法选择参与协作的次要用户,综合各协作用户的感知信息来最小化信道中的干扰,同时也减少次要用户的信令损耗,最后通过深度神经网络对感知结果的分类问题进行改进;提出了一种基于协作频谱感知的深度强化学习算法。仿真结果表明,该算法相比传统的SVM、K-out-of-N和深度学习算法具有更好的感知性能。
    • 韩明仁; 王玉峰
    • 摘要: 采用电推力器实现自主轨道转移是全电推进卫星领域的关键技术之一。针对地球同步轨道(geostationary orbit,GEO)全电推进卫星的轨道提升问题,将广义优势估计(generalized advantage estimator,GAE)和近端策略优化(proximal policy optimization,PPO)方法相结合,在考虑多种轨道摄动影响以及地球阴影约束的情况下,提出了基于强化学习的时间最优小推力变轨策略优化方法。针对状态空间过大、奖励稀疏导致训练困难这一关键问题,提出了动作输出映射和分层奖励等训练加速方法,有效提升了训练效率,加快了收敛速度。数值仿真和结果对比表明,所提方法更加简单、灵活、高效,与传统的直接法、间接法以及反馈控制法相比,能够保证轨道转移时间的最优性。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号