您现在的位置: 首页> 研究主题> 马尔可夫决策过程

马尔可夫决策过程

马尔可夫决策过程的相关文献在1998年到2022年内共计241篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、电工技术 等领域,其中期刊论文207篇、会议论文11篇、专利文献89732篇;相关期刊112种,包括运筹与管理、系统工程与电子技术、电力系统自动化等; 相关会议10种,包括2012中国计算机大会、2006年全国第十届企业信息化与工业工程学术年会、第五届中国青年运筹与管理学者大会等;马尔可夫决策过程的相关文献由738位作者贡献,包括朱江、王浩、丁家满等。

马尔可夫决策过程—发文量

期刊论文>

论文:207 占比:0.23%

会议论文>

论文:11 占比:0.01%

专利文献>

论文:89732 占比:99.76%

总计:89950篇

马尔可夫决策过程—发文趋势图

马尔可夫决策过程

-研究学者

  • 朱江
  • 王浩
  • 丁家满
  • 关永
  • 刘甜甜
  • 吴琼
  • 唐昊
  • 姚宏亮
  • 姜瑛
  • 官蕊
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

    • 周琴; 罗飞; 丁炜超; 顾春华; 郑帅
    • 摘要: Q-Learning是目前一种主流的强化学习算法,但其在随机环境中收敛速度不佳,之前的研究针对Speedy Q-Learning存在的过估计问题进行改进,提出了Double Speedy Q-Learning算法。但Double Speedy Q-Learning算法并未考虑随机环境中存在的自循环结构,即代理执行动作时,存在进入当前状态的概率,这将不利于代理在随机环境中学习,从而影响算法的收敛速度。针对Double Speedy Q-Learning中存在的自循环结构,利用逐次超松弛技术对Double Speedy Q-Learning算法的Bellman算子进行改进,提出基于逐次超松弛技术的Double Speedy Q-Learning算法(Double Speedy Q-Learning based on Successive Over Relaxation,DSQL-SOR),进一步提升了Double Speedy Q-Learning算法的收敛速度。通过数值实验将DSQL-SOR与其他算法的实际奖励和期望奖励之间的误差进行对比,实验结果表明,所提算法比现有主流的算法SQL的误差低0.6,比逐次超松弛算法GSQL低0.5,这表明DSQL-SOR算法的性能较其他算法更优。实验同时对DSQL-SOR算法的可拓展性进行测试,当状态空间从10增加到1000时,每次迭代的平均时间增长缓慢,始终维持在10^(-4)数量级上,表明DSQL-SOR的可拓展性较强。
    • 张文沛; 崔鹏浩; 李洋; 延爽
    • 摘要: 预测性维护决策旨在提高维护效率的同时,降低维护停机对生产的影响。预测性维护根据设备的实际健康状态进行维护决策,能有效避免过度维护造成的浪费和维护不及时造成的设备随机故障。然而类似于设备故障停机,预测性维护需要关闭设备进行维护作业。如果维护时机选择不当,维护过程会引起生产线的饥饿和阻塞,造成生产损失。因此,预测性维护不仅需要关注设备自身的维护需求,还需要与实际生产进行联动。以考虑机器状态劣化的航空产品流水线为研究对象,在流水线产出损失分析的基础上,研究流水线预测性维护决策问题。首先,针对缺料停机、设备故障等扰动停机事件和预测性维护事件,分析停机事件对流水线产出的影响,量化造成的流水线产出损失。其次,考虑流水线产出损失和维护成本构建奖励函数,建立基于马尔可夫决策过程的流水线预测性维护决策模型,结合深度Q网络算法求解模型获得优化决策方案。最后,通过仿真试验对比其他三种维护方法,验证了所提出决策模型的有效性。
    • 宋兆涵; 张德智
    • 摘要: 主要研究适用于无初始时隙分配和无固定时间基准终端的分布式空间飞行器自组网的初始组网策略。针对空间飞行器网络拓扑范围大、节点数目少、协同组网任务具有临时性、可靠性要求高等特点,提出了一种基于时分多址(Time Division Multiple Access,TDMA)的竞争式组网策略,并建立马尔可夫决策模型计算出最优竞争概率,完成网络的快速建立。仿真结果表明,所提出的竞争式时分多址组网策略具有网络建立时间短、组网过程可靠性高的特点,提高了网络的快速性、灵活性和安全性。
    • 张明杰; 朱江
    • 摘要: 以提高无线传感器网络中任务处理的能效为目标,提出了一种近似最优化的任务处理机制,无线传感器节点可根据任务缓存区的任务数量、信道条件,动态地实现任务向边缘服务器的卸载以及本地处理。将任务处理机制建模为马尔可夫决策过程,因为无线传感器节点不知道此过程的状态转移概率,所以采用A3C算法以实现在环境参数未知情况下的探索和学习,从而得到近似最优的任务处理策略。仿真结果表明,与其他机制相比,所提任务处理机制能提高节点能效,且收敛速度更快。
    • 李学明; 吴国豪; 周尚波; 林晓然; 谢洪斌
    • 摘要: 针对目前的分数阶非线性模型图像特征提取能力不足导致分割精度较低的问题,提出一种基于分数阶网络和强化学习(RL)的图像实例分割模型,用来分割出图像中目标实例的高质量轮廓曲线。该模型共包含两层模块:1)第一层为二维分数阶非线性网络,主要采用混沌同步方法来获取图像中像素点的基础特征,并通过根据像素点间的相似性进行耦合连接的方式获取初步的图像分割结果;2)第二层通过RL思想将图像实例分割建立为一个马尔可夫决策过程(MDP),并利用建模过程中的动作−状态对、奖励函数和策略的设计来获取图像的区域结构和类别信息。最后将第一层获取到的像素特征和初步的图像分割结果与第二层获取到的区域结构和类别信息联合起来进行实例分割。在Pascal VOC2007和Pascal VOC2012数据集上的实验结果表明,这种基于连续决策的图像实例分割模型与传统的分数阶模型相比,平均精度(AP)至少提升了15个百分点,不仅能够获取图像中目标物体的类别信息,而且进一步提升了对图像轮廓细节和细粒度信息的提取能力。
    • 谢芳; 徐哲; 于静
    • 摘要: 可更新资源可用量的不确定是项目调度中普遍面临的问题,本文在随机资源可用量和活动多模式的约束下,考虑到活动可中断的情形,基于马尔可夫决策过程理论构建以最小化项目期望工期为目标的随机调度模型,针对问题特征设计以动态活动-模式优先规则和串行调度生成机制相结合的启发式算法作为基准策略的Rollout算法,并针对PSLIB的J30算例集展开实验研究。研究发现:随着资源可用量变化波动的增大,项目工期、活动中断次数以及问题的求解难度也随之增加;虽然考虑活动中断的优先规则在解决确定型问题时的表现优于不考虑活动中断的优先规则,但对于随机问题的效果却相反;本文提出的算法对于资源需求小或资源供应充足的情形求解效果更佳。本研究可以有效利用项目进度信息为项目管理者提供高质量的动态决策依据。
    • 官蕊; 丁家满; 贾连印; 游进国; 姜瑛
    • 摘要: 推荐算法在一定程度上解决了信息过载问题,但传统推荐模型在挖掘数据特性方面有待改进。为此,结合强化学习方法提出一种融合序列模式评分的策略梯度推荐算法。将推荐过程建模为马尔可夫决策过程;分析推荐基础数据特性模式,设计以序列模式评分为奖励的反馈函数,在算法的每一次迭代过程中学习;通过对累积奖励设计标准化操作来降低策略梯度的方差。将该方法应用到电影推荐中进行验证,结果表明所提方法具有较好的推荐准确性。
    • 刘奇; 马娆; 俞凯
    • 摘要: 自然语言生成是目前非常重要且具有挑战性的一类人工智能任务.长短时记忆(Long Short-Term Memory,LSTM)语言模型是目前最为主流的自然语言生成模型.但是,LSTM语言模型的训练准则是词语级别的交叉熵,这会导致暴露偏差问题.此外,一般自然语言生成任务的评测指标是序列级别的BLEU分数或者词错误率,这与训练使用的交叉熵准则也不匹配.在本文中,我们使用马尔可夫决策过程重定义了自然语言生成问题,并通过从训练数据中提取的先验控制向量来指导生成过程.先验控制向量可以视作是对序列空间的一种先验划分的抽象,通过在自然语言生成中引入先验控制向量,我们可以更好的约束自然语言生成的空间.再通过马尔可夫决策过程的定义,我们可以使用策略梯度算法来直接使用测试使用的BLEU分数来代替交叉熵训练LSTM网络.在多个数据集上的实验显示本文提出的方法相比于普通使用LSTM语言模型的基线系统在BLEU分数上有大约绝对2%~3%的提升.
    • 夏天; 黄冠; 李颖
    • 摘要: 针对大型医用设备人工管理效率低、无法满足应急调度需求的问题,文中提出了基于深度强化学习算法的医用设备应急调度优化技术。使用物联网技术采集大型医用设备日常使用的各类参数,作为后续调度优化算法的样本数据。通过对医用设备调度问题的分析,采用马尔可夫决策过程作为调度优化算法的基础模型,并给出了状态空间、动作空间以及奖惩函数的定义。同时,以贪婪策略作为强化学习的动作探索策略,使用Tanh函数作为激活函数,从而提高了对非线性复杂数据的学习能力;使用DDPG算法在经验数据中获得价值估计和行为估计。经测试,文中所提出的医用设备应急调度优化算法可合理安排医用设备的使用,提高其综合利用率,与未使用应急调度算法的情况对比,检查耗时平均缩短了31.2%。
    • 冯昌森; 张瑜; 谢路耀; 文福拴; 张凯怡; 张有兵
    • 摘要: 随着可再生能源发电渗透率的不断增大,配电系统的电压越限问题愈发频繁,亟需高效的电压管理策略以保证配电系统的安全经济运行。首先,文中建立了双时间尺度的配电系统电压管理模型,实现不同时间响应特性的调压设备协调控制。然后,将2个时间尺度的电压管理模型建模为马尔可夫决策过程,在有效考虑两者的时间耦合关系和可控设备物理特性的基础上,分别利用多智能体深度确定性策略梯度算法和双深度Q网络算法求解模型,实现了双时间尺度的实时电压管理。最后,基于IEEE 33节点配电系统进行算例分析,验证了所提模型和方法的有效性。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号