您现在的位置：首页> 研究主题> 马尔科夫决策过程

马尔科夫决策过程

马尔科夫决策过程的相关文献在2004年到2022年内共计146篇，主要集中在自动化技术、计算机技术、电工技术、无线电电子学、电信技术等领域，其中期刊论文119篇、会议论文2篇、专利文献136907篇；相关期刊80种，包括运筹与管理、系统工程与电子技术、电工技术学报等；相关会议2种，包括2007中国控制与决策学术年会、2005年海峡两岸供应链与物流论坛暨学术研讨会等；马尔科夫决策过程的相关文献由424位作者贡献，包括傅启明、王辉、黄镇谨等。

马尔科夫决策过程—发文量

期刊论文>

论文：119篇占比：0.09%

会议论文>

论文：2篇占比：0.00%

专利文献>

论文：136907篇占比：99.91%

总计：137028篇

马尔科夫决策过程—发文趋势图

马尔科夫决策过程
-研究学者

傅启明
王辉
黄镇谨
关永
刘全
孟生旺
张杰
李晓娟
王瑞
耿娜
肖宇谷
魏洪兴
于东
于俊
于波
于雷
付旭云
兰卓睿
刘文军
刘泽石
吉军
吴思运
周谊成
夏玮玮
夏露
姜守旭
孙洪坤
寇英信
尤树华
崔文清
张安
张旭东
张耀中
徐安
明家会
李战武
李昭莹
李治军
李臻
杨一铭
杨娟
杨建新
林琳
林陪晖
欧一鸣
欧阳浩
汤兵勇
汤志荔
汪英俊
沈连丰

马尔科夫决策过程
-相关主题

马尔科夫决策过程
-相关期刊

马尔科夫决策过程
-相关会议

期刊论文
会议论文
专利文献

搜索

排序：

专利类型

专利分类

学科

年份

2022
(17)
2021
(20)
2020
(13)
2019
(15)
2018
(5)
2017
(4)
2016
(8)
2015
(4)
2014
(7)
2013
(8)
2012
(8)
2011
(2)
2010
(1)
2009
(3)
2008
(1)
2007
(4)
2006
(2)
2005
(1)
2004
(1)

期刊

收录数据库

作者

傅启明
(5)
王辉
(4)
黄镇谨
(4)
关永
(3)
刘全
(3)
孟生旺
(3)
张杰
(3)
李晓娟
(3)
王瑞
(3)
耿娜
(3)
肖宇谷
(3)
魏洪兴
(3)
于东
(2)
于俊
(2)
于波
(2)
于雷
(2)
付旭云
(2)
兰卓睿
(2)
刘文军
(2)
刘泽石
(2)
吉军
(2)
吴思运
(2)
周谊成
(2)
夏玮玮
(2)
夏露
(2)
姜守旭
(2)
孙洪坤
(2)
寇英信
(2)
尤树华
(2)
崔文清
(2)
张安
(2)
张旭东
(2)
张耀中
(2)
徐安
(2)
明家会
(2)
李战武
(2)
李昭莹
(2)
李治军
(2)
李臻
(2)
杨一铭
(2)
杨娟
(2)
杨建新
(2)
林琳
(2)
林陪晖
(2)
欧一鸣
(2)
欧阳浩
(2)
汤兵勇
(2)
汤志荔
(2)
汪英俊
(2)
沈连丰
(2)

关键词

申请/权力人

;

1. 融合有效方差置信上界的Q学习智能干扰决策算法
- 饶宁；许华；宋佰霖
- 摘要：为进一步提升基于值函数强化学习的智能干扰决策算法的收敛速度,增强战场决策的有效性,设计了一种融合有效方差置信上界思想的改进Q学习智能通信干扰决策算法.该算法在Q学习算法的框架基础上,利用有效干扰动作的价值方差设置置信区间,从干扰动作空间中剔除置信度较低的干扰动作,减少干扰方在未知环境中不必要的探索成本,加快其在干扰动作空间的搜索速度,并同步更新所有干扰动作的价值,进而加速学习最优干扰策略.通过将干扰决策场景建模为马尔科夫决策过程进行仿真实验,所构造的干扰实验结果表明:当通信方使用干扰方未知的干扰躲避策略变更通信波道时,与现有基于强化学习的干扰决策算法相比,该算法在无通信方的先验信息条件下,收敛速度更快,可达到更高的干扰成功率,获得更大的干扰总收益.此外,该算法还适用于"多对多"协同对抗环境,可利用动作剔除方法降低联合干扰动作的空间维度,相同实验条件下,其干扰成功率比传统Q学习决策算法高50％以上.
2. 基于马尔科夫决策过程的多目标跟踪算法
- 王诗言；吴华东；余翔
- 摘要：目前,多目标跟踪算法仍面临诸多挑战,例如遮挡、快速运动等所造成的影响难以完全规避。为了解决上述问题,提出一种基于马尔科夫决策过程的多目标跟踪算法。该算法将每个目标建模成一个马尔科夫决策过程,通过最大化奖励函数来驱动状态间的转移,并将强化学习训练用于数据关联相似度函数,有效地解决了目标遮挡问题。同时,为了解决物体快速运动导致跟踪算法丢失目标问题,利用超像素建立表观模型,充分考虑历史图像信息,提高跟踪算法的准确性与可靠性。实验评估表明,该跟踪器在公开的MOT15数据集上具有良好的性能。提出的跟踪器在多目标跟踪精度(multide object tracking accuracy,MOTA)指标上达到36.5,远高于其他对比算法,而在ID switch指标上仅仅为308次,低于其他对比算法,显著地减少了目标丢失率以及身份交换率。
3. 移动边缘计算中的在线任务卸载方法
- 刘婷；罗喜良
- 摘要：为减少移动边缘计算(mobile edge computing,MEC)网络中移动用户的长期任务开销,利用强化学习的马尔科夫决策过程,将用户的移动性与系统的动态信息建模为随机优化问题。依据系统信息的状态,将问题分为系统信息已知、系统信息未知2种情况。在系统信息已知时,提供了问题的最优解;系统信息未知时,基于在线学习提出2个任务卸载策略。一个策略能够收敛到系统最优解,但收敛速度较慢;另一个策略能以更快的收敛速度,达到接近最优解的表现,可用于更复杂的系统。最后在仿真中展示算法的有效性。
4. 无线体域网安全路由算法设计与仿真
- 冯维；许丹；夏晓威；李沛
- 摘要：为提高无线体域网时延和安全性能,提出一种基于马尔科夫链的无线体域网低时延安全路由选择算法。该算法基于马尔科夫决策模型,将以安全中断概率为约束的路由选择问题转换为寻找动态系统最小时延成本的控制策略问题进行建模,采用拉格朗日乘子法将该优化问题转换为无约束优化问题,并根据贝尔曼优化理论中的价值迭代算法,将无约束问题进一步简化为求解贝尔曼方程,运用实时动态规划算法得到安全路由。仿真结果表明,该方法在满足安全约束条件下,能够实时选择最优中继节点,优化平均延时。
5. 基于深度强化学习的主动配电网高恢复力决策方法
- 罗欣儿；杜进桥；田杰；刘安迪；王标；李妍；王少荣
- 摘要：随着全球极端天气事件频发,电力系统在极端自然灾害下恢复力的研究日益受到关注。本文提出基于深度强化学习的高恢复力决策方法,将极端灾害下配电网运行状态和线路故障状态作为观测状态集合,自学习智能体Agent在当前环境观测状态下寻求可行的决策策略进行动作,定义自学习Agent的回报函数以进行动作评价;采用观测状态数据,开展基于竞争深度Q网络(dueling deep Q network,DDQN)的深度强化学习(deep reinforcement learning,DRL)训练,智能体Agent通过试错学习方式选择动作,试错经验在估值函数Q矩阵中存储,实现状态到主动配电网实时故障恢复策略的非线性映射;最后结合改进的IEEE 33节点算例,基于蒙特卡罗法仿真随机故障场景,对所提出方法生成的故障恢复随机优化决策进行分析。结果表明:通过主动配电网的分布式电源、联络开关和可中断负荷的协调优化控制,可以有效提升极端灾害下供电能力。
6. 基于联邦学习的无线网络节点能量与信息管理策略
- 杨文琦；章阳；聂江天；杨和林；康嘉文；熊泽辉
- 摘要：在无线通信网络环境中,分布式客户端节点在用户隐私保护、数据传输效率、能量利用效率之间较难实现平衡。针对该问题,提出一种结合联邦学习与传统集中式学习的能量与信息管理优化策略。以覆盖性强、适用性广的移动信息采集设备作为学习服务器,将分布分散、资源受限的客户端节点作为学习参与者,通过构建马尔科夫决策模型分析客户端节点在移动信息采集过程中的状态变化和行为模式,同时采用值迭代算法和深度强化学习算法对该模型进行近似求解,获得客户端节点最优的信息传输与能量管理组合策略。仿真结果表明,相比MDP、GRE、RAN策略,该策略的长期效用较高且数据延迟较小,可实现客户端节点在信息传输过程中的数据隐私性、数据可用性与能量消耗之间的最优平衡。
7. 强化学习在车辆路径问题中的研究综述
- 牛鹏飞；王晓峰；芦磊；张九龙
- 摘要：车辆路径问题是物流运输优化中的核心问题,目的是在满足顾客需求下得到一条最低成本的车辆路径规划。但随着物流运输规模的不断增大,车辆路径问题求解难度增加,并且对实时性要求也不断提高,已有的常规算法不再适应实际要求。近年来,基于强化学习算法开始成为求解车辆路径问题的重要方法,在简要回顾常规方法求解车辆路径问题的基础上,重点总结基于强化学习求解车辆路径问题的算法,并将算法按照基于动态规划、基于价值、基于策略的方式进行了分类;最后对该问题未来的研究进行了展望。
8. 基于Q学习的智能交通信号灯优化
- 宋国治；苏鹏博；刘畅；陈玉格
- 摘要：利用Q学习发展出的D3QN模型来实现交通信号控制智能体,模型采用离散交通状态编码的状态集,将交叉口处车辆的位置-速度二维矩阵图经过卷积网络层进行特征提取,以捕捉更精确、完整的交叉口信息。分别基于相位切换策略和马尔科夫决策过程型(Markov decision process,MDP)动作策略,利用SUMO交通仿真软件进行模拟训练。结果表明,与传统的定时定序信号灯控制策略相比,相位切换策略下车辆的平均等待时间减少了约45%,而MDP动作策略下减少了约78%。
9. 基于蒙特卡洛树搜索的众包概率规划
- 饶东宁；易善桢
- 摘要：概率规划问题描述的是一个马尔科夫决策过程,其中的动作具有并行性和不确定性,从而导致概率规划问题的状态空间产生组合爆炸。过大的状态空间会降低规划器的效率,同时也会提高求解的难度。基于蒙特卡洛树搜索的众包概率规划可以将规划任务动态分配给多个规划器,由多个规划器共同对规划问题进行求解;同时使用蒙特卡洛树搜索算法构建前瞻树,通过前瞻树评估不同规划器返回的动作的质量。实验结果表明,随着时间限制放宽,该方法所求得的解的质量呈上升趋势;即使在相同条件下,该方法在求解效率和标准差上都有优势。
10. 基于MDP的协作认知边缘计算网络资源分配方案
- 刘伯阳；马杰；白静；万奕尧
- 摘要：为了缓解移动边缘计算网络中用户设备续航有限、频谱稀缺的问题,提出一种可无线充能的认知边缘计算网络中的资源优化方案。主用户可以对次用户进行无线充能与协作中继,尽快完成自身数据传输后使信道空闲,次用户接入信道后进行边缘计算。利用马尔科夫决策过程(Markov Decision Proces,MDP)对次用户的能量收集时间长度、卸载能耗和操作模式等进行联合优化设计,最大化次用户能获得的长期期望计算量。仿真结果表明,所提方案能够提升系统频谱效率,并且所提方案获得的长期期望计算量就短期优化方案而言具有显著提升。

1. 移动云计算系统中基于马尔科夫决策过程的协作卸载方法
- 东南大学
- 公开公告日期：2022.02.15
- 摘要：本发明公开了一种移动云计算系统中基于马尔科夫决策过程的协作卸载方法，包括：(1)将任务队列状态、边缘云状态、移动自组织云状态和中心云状态组合成马尔科夫决策过程的状态空间，并计算得到状态转移概率矩阵；(2)定义动作空间；(3)以时延和能耗定义马尔科夫决策过程的立即回报函数；(4)将一系列输入任务作为统计样本，计算任务分割阈值；(5)根据已得到的阈值，通过任务分割算法实现任务的自适应分割；(6)根据子任务的大小、状态转移概率矩阵和立即回报函数，通过值迭代算法得到卸载决策结果。本发明基于马尔科夫决策过程，满足时延和能耗最小化；通过任务分割算法将任务自适应分割，实现了云计算资源的充分利用和负载均衡。
2. 基于半马尔科夫决策过程的桥梁全寿命维护策略优化方法
- 浙江大学
- 浙江海峡创新科技有限公司
- 海峡创新互联网股份有限公司
- 公开公告日期：2022.05.10
- 摘要：本发明公开了一种基于半马尔科夫决策过程的桥梁全寿命维护策略优化方法，包括：S1、确定桥梁的年失效概率及对应的可靠度指标，并根据可靠度指标定义桥梁状态；S2、仅考虑锈蚀引起的可靠度指标退化，且设定退化过程符合伽马过程；S3、计算决策区间内桥梁的失效概率；S4、每年对桥梁进行一次健康检测，判断桥梁保护层的退化情况并确定桥梁状态，根据桥梁状态确定采取的决策，该决策问题采用半马尔科夫决策过程模型；S5、求解半马尔科夫决策过程模型，获得桥梁最优全寿命维护策略。该方法基于桥梁的可靠度指标对预防性维护策略和必要性维护策略进行统一优化，同时考虑了桥梁性能退化过程中的随机性及决策区间内桥梁的时变可靠度。
3. 基于马尔科夫决策过程模型的车辆位置跟踪方法
- 南京理工大学
- 公开公告日期：2021.02.12
- 摘要：本发明公开了一种基于马尔科夫决策过程模型的车辆位置跟踪方法，包括以下步骤：建立二维道路网络模型；定义传感器簇的状态、动作以及奖励，建立马尔可夫决策过程模型，利用强化学习得到传感器簇的最优动作序列以实现初步跟踪；利用基于RSSI的高斯权重定位算法进行目标车辆的精确跟踪。本发明实现了车辆的精确定位，为车辆位置跟踪的有效实施提供帮助。
4. 一种基于马尔科夫决策过程的乘客等出租车优化方法
- 湖南大学
- 公开公告日期：2021.10.26
- 摘要：本发明公开了一种基于马尔科夫决策过程的乘客等出租车优化方法，属于数据挖掘和出租车用户推荐领域，首先推荐乘客去附近的一个路段上等车，并给出在该位置建议等待的时间；若乘客在第一个路段上在给出的等待时间内没有等到空出租车，就推荐乘客走到与该路段相连的路口去等待，并给出建议等待的时间；若乘客在路口没有等到出租车，则继续推荐他走到相邻的路口上继续等待，如此循环，直至乘客在某个路口等到空出租车，结束推荐，获取乘客在一个路段或者路口等到空出租车的概率，得到乘客按照推荐路线可以等到出租车的总概率。本发明可使得乘客有更大的概率等到出租车；推荐的是一个等待路线，克服现有方法只推荐一个位置的缺点。
5. 一种基于马尔科夫决策过程的动态资源优化方法
- 中国兵器工业信息中心
- 公开公告日期：2020.07.03
- 摘要：本发明属于动态资源优化技术领域，具体涉及一种基于马尔科夫决策过程的动态资源优化方法。该方法打破了传统的制造资源选择方法，将云制造环境下多个研制任务精确调控云制造资源问题抽象为一个马尔科夫决策选择过程，实现了研制过程不确定性对资源选择的数学建模；以研制期望费用为目标函数，采用交叉熵方法进行计算，将组合优化问题转换为关联随机优化问题，得到云制造资源最优选择概率，实现复杂产品协同研制工作中制造资源的合理调度和高效利用，有效的降低了产品研制风险和制造成本。
6. 一种基于马尔科夫决策过程的智能交通信号控制优化方法、软件
- 云控智行(上海)汽车科技有限公司
- 公开公告日期：2022-12-30
- 摘要：本申请提供了一种基于马尔科夫决策过程的智能交通信号控制优化方法、软件，所述方法包括：获取目标道路路口的实时交通流数据；根据所述实时交通流数据，通过基于马尔科夫决策过程构建的交通信号控制模型，预测所述目标道路路口下一时刻的交通流状况，得到预测结果；根据所述预测结果，对所述交通信号执行控制策略；其中，所述交通信号控制模型的构建因素包括状态空间和动作空间；所述状态空间用于表征所述目标道路路口各时段车辆流量的状态；所述动作空间用于表征所述目标道路路口各时段处于不同状态下的信号控制策略。至少可以解决现有的交通信号的控制方法中，时效性差，无法适应满足当下交通流复杂多变的情况的技术问题。
7. 基于半马尔科夫决策过程的桥梁全寿命维护策略优化方法
- 浙江大学
- 浙江海峡创新科技有限公司
- 海峡创新互联网股份有限公司
- 公开公告日期：2021-04-09
- 摘要：本发明公开了一种基于半马尔科夫决策过程的桥梁全寿命维护策略优化方法，包括：S1、确定桥梁的年失效概率及对应的可靠度指标，并根据可靠度指标定义桥梁状态；S2、仅考虑锈蚀引起的可靠度指标退化，且设定退化过程符合伽马过程；S3、计算决策区间内桥梁的失效概率；S4、每年对桥梁进行一次健康检测，判断桥梁保护层的退化情况并确定桥梁状态，根据桥梁状态确定采取的决策，该决策问题采用半马尔科夫决策过程模型；S5、求解半马尔科夫决策过程模型，获得桥梁最优全寿命维护策略。该方法基于桥梁的可靠度指标对预防性维护策略和必要性维护策略进行统一优化，同时考虑了桥梁性能退化过程中的随机性及决策区间内桥梁的时变可靠度。
8. 一种基于马尔科夫决策过程的高能效任务调度算法
- 徐州工业职业技术学院
- 公开公告日期：2020-02-07
- 摘要：一种基于马尔科夫决策过程的高能效任务调度算法，基于服务器和客户端两层架构构建多任务移动群智感知系统；根据公式获得智能手机当前状态的奖励值Λ(S
9. 一种基于马尔科夫决策过程的自适应系统更新与修复方法
- 南京航空航天大学
- 公开公告日期：2020-12-22
- 摘要：本发明提出了一种基于马尔科夫决策过程的自适应系统更新与修复方法。包括以下步骤：基于马尔科夫决策过程构建自适应系统的马尔科夫决策过程模型；获取环境变化，通过可达性检查识别出新环境下的不可达状态，在马尔科夫决策过程模型中删除不可达状态和不可行迁移；获取新环境下系统的新状态，将新的状态和新的迁移添加到马尔科夫决策过程模型中；基于状态更新后的马尔科夫决策过程模型，根据自适应系统的实际运行情况及已有的应用逻辑，更新模型中的迁移概率；对更新后的马尔科夫决策过程模型进行修复。本发明可用于自适应系统的设计，在系统过时或不满足性质规约时，帮助更新与修复自适应系统。
10. 一种基于马尔科夫决策过程模型的机会路由协议
- 南京理工大学
- 公开公告日期：2020-09-04
- 摘要：本发明公开了一种基于马尔科夫决策过程模型的机会路由协议，首先评估环境链路质量，评估包接收率：采集相同RSSI值下的包接收率数据以及不同通信距离下的LQI均值和包接收率数据建立样本空间，对LQI均值和包接受率数据进行曲线族回归拟合，得出包接收率的估算公式；播撒无线传感器节点，组建无线传感器网络；传感器节点周期性广播和接收探测包，建立邻居信息表；传感器节点建立候选节点集；有效数据包所在节点广播数据包，接收到数据包的候选节点按值迭代公式重新计算节点对应状态值，数据包发送方选取回传对应状态值最大的节点作为下一跳转发节点。本发明使无线传感器网络能量使用优化均衡。

马尔科夫决策过程

马尔科夫决策过程—发文量

马尔科夫决策过程—发文趋势图

马尔科夫决策过程-研究学者

马尔科夫决策过程-相关主题

马尔科夫决策过程-相关期刊

马尔科夫决策过程-相关会议

马尔科夫决策过程
-研究学者

马尔科夫决策过程
-相关主题

马尔科夫决策过程
-相关期刊

马尔科夫决策过程
-相关会议