您现在的位置: 首页> 研究主题> 马尔科夫决策过程

马尔科夫决策过程

马尔科夫决策过程的相关文献在2004年到2022年内共计146篇,主要集中在自动化技术、计算机技术、电工技术、无线电电子学、电信技术 等领域,其中期刊论文119篇、会议论文2篇、专利文献136907篇;相关期刊80种,包括运筹与管理、南开大学学报(自然科学版)、系统工程与电子技术等; 相关会议2种,包括2007中国控制与决策学术年会、2005年海峡两岸供应链与物流论坛暨学术研讨会等;马尔科夫决策过程的相关文献由424位作者贡献,包括傅启明、王辉、黄镇谨等。

马尔科夫决策过程—发文量

期刊论文>

论文:119 占比:0.09%

会议论文>

论文:2 占比:0.00%

专利文献>

论文:136907 占比:99.91%

总计:137028篇

马尔科夫决策过程—发文趋势图

马尔科夫决策过程

-研究学者

  • 傅启明
  • 王辉
  • 黄镇谨
  • 关永
  • 刘全
  • 孟生旺
  • 张杰
  • 李晓娟
  • 王瑞
  • 耿娜
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

    • 饶宁; 许华; 宋佰霖
    • 摘要: 为进一步提升基于值函数强化学习的智能干扰决策算法的收敛速度,增强战场决策的有效性,设计了一种融合有效方差置信上界思想的改进Q学习智能通信干扰决策算法.该算法在Q学习算法的框架基础上,利用有效干扰动作的价值方差设置置信区间,从干扰动作空间中剔除置信度较低的干扰动作,减少干扰方在未知环境中不必要的探索成本,加快其在干扰动作空间的搜索速度,并同步更新所有干扰动作的价值,进而加速学习最优干扰策略.通过将干扰决策场景建模为马尔科夫决策过程进行仿真实验,所构造的干扰实验结果表明:当通信方使用干扰方未知的干扰躲避策略变更通信波道时,与现有基于强化学习的干扰决策算法相比,该算法在无通信方的先验信息条件下,收敛速度更快,可达到更高的干扰成功率,获得更大的干扰总收益.此外,该算法还适用于"多对多"协同对抗环境,可利用动作剔除方法降低联合干扰动作的空间维度,相同实验条件下,其干扰成功率比传统Q学习决策算法高50%以上.
    • 王诗言; 吴华东; 余翔
    • 摘要: 目前,多目标跟踪算法仍面临诸多挑战,例如遮挡、快速运动等所造成的影响难以完全规避。为了解决上述问题,提出一种基于马尔科夫决策过程的多目标跟踪算法。该算法将每个目标建模成一个马尔科夫决策过程,通过最大化奖励函数来驱动状态间的转移,并将强化学习训练用于数据关联相似度函数,有效地解决了目标遮挡问题。同时,为了解决物体快速运动导致跟踪算法丢失目标问题,利用超像素建立表观模型,充分考虑历史图像信息,提高跟踪算法的准确性与可靠性。实验评估表明,该跟踪器在公开的MOT15数据集上具有良好的性能。提出的跟踪器在多目标跟踪精度(multide object tracking accuracy,MOTA)指标上达到36.5,远高于其他对比算法,而在ID switch指标上仅仅为308次,低于其他对比算法,显著地减少了目标丢失率以及身份交换率。
    • 刘婷; 罗喜良
    • 摘要: 为减少移动边缘计算(mobile edge computing,MEC)网络中移动用户的长期任务开销,利用强化学习的马尔科夫决策过程,将用户的移动性与系统的动态信息建模为随机优化问题。依据系统信息的状态,将问题分为系统信息已知、系统信息未知2种情况。在系统信息已知时,提供了问题的最优解;系统信息未知时,基于在线学习提出2个任务卸载策略。一个策略能够收敛到系统最优解,但收敛速度较慢;另一个策略能以更快的收敛速度,达到接近最优解的表现,可用于更复杂的系统。最后在仿真中展示算法的有效性。
    • 冯维; 许丹; 夏晓威; 李沛
    • 摘要: 为提高无线体域网时延和安全性能,提出一种基于马尔科夫链的无线体域网低时延安全路由选择算法。该算法基于马尔科夫决策模型,将以安全中断概率为约束的路由选择问题转换为寻找动态系统最小时延成本的控制策略问题进行建模,采用拉格朗日乘子法将该优化问题转换为无约束优化问题,并根据贝尔曼优化理论中的价值迭代算法,将无约束问题进一步简化为求解贝尔曼方程,运用实时动态规划算法得到安全路由。仿真结果表明,该方法在满足安全约束条件下,能够实时选择最优中继节点,优化平均延时。
    • 罗欣儿; 杜进桥; 田杰; 刘安迪; 王标; 李妍; 王少荣
    • 摘要: 随着全球极端天气事件频发,电力系统在极端自然灾害下恢复力的研究日益受到关注。本文提出基于深度强化学习的高恢复力决策方法,将极端灾害下配电网运行状态和线路故障状态作为观测状态集合,自学习智能体Agent在当前环境观测状态下寻求可行的决策策略进行动作,定义自学习Agent的回报函数以进行动作评价;采用观测状态数据,开展基于竞争深度Q网络(dueling deep Q network,DDQN)的深度强化学习(deep reinforcement learning,DRL)训练,智能体Agent通过试错学习方式选择动作,试错经验在估值函数Q矩阵中存储,实现状态到主动配电网实时故障恢复策略的非线性映射;最后结合改进的IEEE 33节点算例,基于蒙特卡罗法仿真随机故障场景,对所提出方法生成的故障恢复随机优化决策进行分析。结果表明:通过主动配电网的分布式电源、联络开关和可中断负荷的协调优化控制,可以有效提升极端灾害下供电能力。
    • 杨文琦; 章阳; 聂江天; 杨和林; 康嘉文; 熊泽辉
    • 摘要: 在无线通信网络环境中,分布式客户端节点在用户隐私保护、数据传输效率、能量利用效率之间较难实现平衡。针对该问题,提出一种结合联邦学习与传统集中式学习的能量与信息管理优化策略。以覆盖性强、适用性广的移动信息采集设备作为学习服务器,将分布分散、资源受限的客户端节点作为学习参与者,通过构建马尔科夫决策模型分析客户端节点在移动信息采集过程中的状态变化和行为模式,同时采用值迭代算法和深度强化学习算法对该模型进行近似求解,获得客户端节点最优的信息传输与能量管理组合策略。仿真结果表明,相比MDP、GRE、RAN策略,该策略的长期效用较高且数据延迟较小,可实现客户端节点在信息传输过程中的数据隐私性、数据可用性与能量消耗之间的最优平衡。
    • 牛鹏飞; 王晓峰; 芦磊; 张九龙
    • 摘要: 车辆路径问题是物流运输优化中的核心问题,目的是在满足顾客需求下得到一条最低成本的车辆路径规划。但随着物流运输规模的不断增大,车辆路径问题求解难度增加,并且对实时性要求也不断提高,已有的常规算法不再适应实际要求。近年来,基于强化学习算法开始成为求解车辆路径问题的重要方法,在简要回顾常规方法求解车辆路径问题的基础上,重点总结基于强化学习求解车辆路径问题的算法,并将算法按照基于动态规划、基于价值、基于策略的方式进行了分类;最后对该问题未来的研究进行了展望。
    • 宋国治; 苏鹏博; 刘畅; 陈玉格
    • 摘要: 利用Q学习发展出的D3QN模型来实现交通信号控制智能体,模型采用离散交通状态编码的状态集,将交叉口处车辆的位置-速度二维矩阵图经过卷积网络层进行特征提取,以捕捉更精确、完整的交叉口信息。分别基于相位切换策略和马尔科夫决策过程型(Markov decision process,MDP)动作策略,利用SUMO交通仿真软件进行模拟训练。结果表明,与传统的定时定序信号灯控制策略相比,相位切换策略下车辆的平均等待时间减少了约45%,而MDP动作策略下减少了约78%。
    • 饶东宁; 易善桢
    • 摘要: 概率规划问题描述的是一个马尔科夫决策过程,其中的动作具有并行性和不确定性,从而导致概率规划问题的状态空间产生组合爆炸。过大的状态空间会降低规划器的效率,同时也会提高求解的难度。基于蒙特卡洛树搜索的众包概率规划可以将规划任务动态分配给多个规划器,由多个规划器共同对规划问题进行求解;同时使用蒙特卡洛树搜索算法构建前瞻树,通过前瞻树评估不同规划器返回的动作的质量。实验结果表明,随着时间限制放宽,该方法所求得的解的质量呈上升趋势;即使在相同条件下,该方法在求解效率和标准差上都有优势。
    • 刘伯阳; 马杰; 白静; 万奕尧
    • 摘要: 为了缓解移动边缘计算网络中用户设备续航有限、频谱稀缺的问题,提出一种可无线充能的认知边缘计算网络中的资源优化方案。主用户可以对次用户进行无线充能与协作中继,尽快完成自身数据传输后使信道空闲,次用户接入信道后进行边缘计算。利用马尔科夫决策过程(Markov Decision Proces,MDP)对次用户的能量收集时间长度、卸载能耗和操作模式等进行联合优化设计,最大化次用户能获得的长期期望计算量。仿真结果表明,所提方案能够提升系统频谱效率,并且所提方案获得的长期期望计算量就短期优化方案而言具有显著提升。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号