马尔可夫决策过程
马尔可夫决策过程的相关文献在1998年到2022年内共计241篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、电工技术
等领域,其中期刊论文207篇、会议论文11篇、专利文献89732篇;相关期刊112种,包括运筹与管理、系统工程与电子技术、电力系统自动化等;
相关会议10种,包括2012中国计算机大会、2006年全国第十届企业信息化与工业工程学术年会、第五届中国青年运筹与管理学者大会等;马尔可夫决策过程的相关文献由738位作者贡献,包括朱江、王浩、丁家满等。
马尔可夫决策过程—发文量
专利文献>
论文:89732篇
占比:99.76%
总计:89950篇
马尔可夫决策过程
-研究学者
- 朱江
- 王浩
- 丁家满
- 关永
- 刘甜甜
- 吴琼
- 唐昊
- 姚宏亮
- 姜瑛
- 官蕊
- 张一晋
- 曾伟
- 李伟
- 李晓娟
- 毛宁
- 游进国
- 王小明
- 王瑞
- 葛红梅
- 贾智平
- 贾连印
- 陈庆新
- 仵博
- 伍从斌
- 何金
- 侯慧娟
- 俞扬
- 冯延蓬
- 刘志锋
- 刘蓉
- 周从华
- 周加斌
- 周琪琦
- 周雷
- 唐国庆
- 夏春蕊
- 宗阳
- 宫傲宇
- 尤肖虎
- 康波大
- 张德平
- 张方正
- 张杰
- 张衡
- 徐宝文
- 房婷
- 方长胜
- 朱卫纲
- 朱淼良
- 朱霸坤
-
-
周琴;
罗飞;
丁炜超;
顾春华;
郑帅
-
-
摘要:
Q-Learning是目前一种主流的强化学习算法,但其在随机环境中收敛速度不佳,之前的研究针对Speedy Q-Learning存在的过估计问题进行改进,提出了Double Speedy Q-Learning算法。但Double Speedy Q-Learning算法并未考虑随机环境中存在的自循环结构,即代理执行动作时,存在进入当前状态的概率,这将不利于代理在随机环境中学习,从而影响算法的收敛速度。针对Double Speedy Q-Learning中存在的自循环结构,利用逐次超松弛技术对Double Speedy Q-Learning算法的Bellman算子进行改进,提出基于逐次超松弛技术的Double Speedy Q-Learning算法(Double Speedy Q-Learning based on Successive Over Relaxation,DSQL-SOR),进一步提升了Double Speedy Q-Learning算法的收敛速度。通过数值实验将DSQL-SOR与其他算法的实际奖励和期望奖励之间的误差进行对比,实验结果表明,所提算法比现有主流的算法SQL的误差低0.6,比逐次超松弛算法GSQL低0.5,这表明DSQL-SOR算法的性能较其他算法更优。实验同时对DSQL-SOR算法的可拓展性进行测试,当状态空间从10增加到1000时,每次迭代的平均时间增长缓慢,始终维持在10^(-4)数量级上,表明DSQL-SOR的可拓展性较强。
-
-
张文沛;
崔鹏浩;
李洋;
延爽
-
-
摘要:
预测性维护决策旨在提高维护效率的同时,降低维护停机对生产的影响。预测性维护根据设备的实际健康状态进行维护决策,能有效避免过度维护造成的浪费和维护不及时造成的设备随机故障。然而类似于设备故障停机,预测性维护需要关闭设备进行维护作业。如果维护时机选择不当,维护过程会引起生产线的饥饿和阻塞,造成生产损失。因此,预测性维护不仅需要关注设备自身的维护需求,还需要与实际生产进行联动。以考虑机器状态劣化的航空产品流水线为研究对象,在流水线产出损失分析的基础上,研究流水线预测性维护决策问题。首先,针对缺料停机、设备故障等扰动停机事件和预测性维护事件,分析停机事件对流水线产出的影响,量化造成的流水线产出损失。其次,考虑流水线产出损失和维护成本构建奖励函数,建立基于马尔可夫决策过程的流水线预测性维护决策模型,结合深度Q网络算法求解模型获得优化决策方案。最后,通过仿真试验对比其他三种维护方法,验证了所提出决策模型的有效性。
-
-
宋兆涵;
张德智
-
-
摘要:
主要研究适用于无初始时隙分配和无固定时间基准终端的分布式空间飞行器自组网的初始组网策略。针对空间飞行器网络拓扑范围大、节点数目少、协同组网任务具有临时性、可靠性要求高等特点,提出了一种基于时分多址(Time Division Multiple Access,TDMA)的竞争式组网策略,并建立马尔可夫决策模型计算出最优竞争概率,完成网络的快速建立。仿真结果表明,所提出的竞争式时分多址组网策略具有网络建立时间短、组网过程可靠性高的特点,提高了网络的快速性、灵活性和安全性。
-
-
张明杰;
朱江
-
-
摘要:
以提高无线传感器网络中任务处理的能效为目标,提出了一种近似最优化的任务处理机制,无线传感器节点可根据任务缓存区的任务数量、信道条件,动态地实现任务向边缘服务器的卸载以及本地处理。将任务处理机制建模为马尔可夫决策过程,因为无线传感器节点不知道此过程的状态转移概率,所以采用A3C算法以实现在环境参数未知情况下的探索和学习,从而得到近似最优的任务处理策略。仿真结果表明,与其他机制相比,所提任务处理机制能提高节点能效,且收敛速度更快。
-
-
李学明;
吴国豪;
周尚波;
林晓然;
谢洪斌
-
-
摘要:
针对目前的分数阶非线性模型图像特征提取能力不足导致分割精度较低的问题,提出一种基于分数阶网络和强化学习(RL)的图像实例分割模型,用来分割出图像中目标实例的高质量轮廓曲线。该模型共包含两层模块:1)第一层为二维分数阶非线性网络,主要采用混沌同步方法来获取图像中像素点的基础特征,并通过根据像素点间的相似性进行耦合连接的方式获取初步的图像分割结果;2)第二层通过RL思想将图像实例分割建立为一个马尔可夫决策过程(MDP),并利用建模过程中的动作−状态对、奖励函数和策略的设计来获取图像的区域结构和类别信息。最后将第一层获取到的像素特征和初步的图像分割结果与第二层获取到的区域结构和类别信息联合起来进行实例分割。在Pascal VOC2007和Pascal VOC2012数据集上的实验结果表明,这种基于连续决策的图像实例分割模型与传统的分数阶模型相比,平均精度(AP)至少提升了15个百分点,不仅能够获取图像中目标物体的类别信息,而且进一步提升了对图像轮廓细节和细粒度信息的提取能力。
-
-
谢芳;
徐哲;
于静
-
-
摘要:
可更新资源可用量的不确定是项目调度中普遍面临的问题,本文在随机资源可用量和活动多模式的约束下,考虑到活动可中断的情形,基于马尔可夫决策过程理论构建以最小化项目期望工期为目标的随机调度模型,针对问题特征设计以动态活动-模式优先规则和串行调度生成机制相结合的启发式算法作为基准策略的Rollout算法,并针对PSLIB的J30算例集展开实验研究。研究发现:随着资源可用量变化波动的增大,项目工期、活动中断次数以及问题的求解难度也随之增加;虽然考虑活动中断的优先规则在解决确定型问题时的表现优于不考虑活动中断的优先规则,但对于随机问题的效果却相反;本文提出的算法对于资源需求小或资源供应充足的情形求解效果更佳。本研究可以有效利用项目进度信息为项目管理者提供高质量的动态决策依据。
-
-
官蕊;
丁家满;
贾连印;
游进国;
姜瑛
-
-
摘要:
推荐算法在一定程度上解决了信息过载问题,但传统推荐模型在挖掘数据特性方面有待改进。为此,结合强化学习方法提出一种融合序列模式评分的策略梯度推荐算法。将推荐过程建模为马尔可夫决策过程;分析推荐基础数据特性模式,设计以序列模式评分为奖励的反馈函数,在算法的每一次迭代过程中学习;通过对累积奖励设计标准化操作来降低策略梯度的方差。将该方法应用到电影推荐中进行验证,结果表明所提方法具有较好的推荐准确性。
-
-
刘奇;
马娆;
俞凯
-
-
摘要:
自然语言生成是目前非常重要且具有挑战性的一类人工智能任务.长短时记忆(Long Short-Term Memory,LSTM)语言模型是目前最为主流的自然语言生成模型.但是,LSTM语言模型的训练准则是词语级别的交叉熵,这会导致暴露偏差问题.此外,一般自然语言生成任务的评测指标是序列级别的BLEU分数或者词错误率,这与训练使用的交叉熵准则也不匹配.在本文中,我们使用马尔可夫决策过程重定义了自然语言生成问题,并通过从训练数据中提取的先验控制向量来指导生成过程.先验控制向量可以视作是对序列空间的一种先验划分的抽象,通过在自然语言生成中引入先验控制向量,我们可以更好的约束自然语言生成的空间.再通过马尔可夫决策过程的定义,我们可以使用策略梯度算法来直接使用测试使用的BLEU分数来代替交叉熵训练LSTM网络.在多个数据集上的实验显示本文提出的方法相比于普通使用LSTM语言模型的基线系统在BLEU分数上有大约绝对2%~3%的提升.
-
-
夏天;
黄冠;
李颖
-
-
摘要:
针对大型医用设备人工管理效率低、无法满足应急调度需求的问题,文中提出了基于深度强化学习算法的医用设备应急调度优化技术。使用物联网技术采集大型医用设备日常使用的各类参数,作为后续调度优化算法的样本数据。通过对医用设备调度问题的分析,采用马尔可夫决策过程作为调度优化算法的基础模型,并给出了状态空间、动作空间以及奖惩函数的定义。同时,以贪婪策略作为强化学习的动作探索策略,使用Tanh函数作为激活函数,从而提高了对非线性复杂数据的学习能力;使用DDPG算法在经验数据中获得价值估计和行为估计。经测试,文中所提出的医用设备应急调度优化算法可合理安排医用设备的使用,提高其综合利用率,与未使用应急调度算法的情况对比,检查耗时平均缩短了31.2%。
-
-
冯昌森;
张瑜;
谢路耀;
文福拴;
张凯怡;
张有兵
-
-
摘要:
随着可再生能源发电渗透率的不断增大,配电系统的电压越限问题愈发频繁,亟需高效的电压管理策略以保证配电系统的安全经济运行。首先,文中建立了双时间尺度的配电系统电压管理模型,实现不同时间响应特性的调压设备协调控制。然后,将2个时间尺度的电压管理模型建模为马尔可夫决策过程,在有效考虑两者的时间耦合关系和可控设备物理特性的基础上,分别利用多智能体深度确定性策略梯度算法和双深度Q网络算法求解模型,实现了双时间尺度的实时电压管理。最后,基于IEEE 33节点配电系统进行算例分析,验证了所提模型和方法的有效性。
-
-
ZHOU Cong-Hua;
周从华;
XING Zhi-Hu;
邢支虎;
LIU Zhi-Feng;
刘志锋;
WANG Chang-Da;
王昌达
- 《2012中国计算机大会》
| 2012年
-
摘要:
限界模型检测避免了符号模型检测反应式系统中构建二叉图时出现的空间快速增长,已经被证明是缓解状态空间爆炸问题的有力技术.本文遵循限界模型检测的思想,对马尔可夫决策过程提出一种限界模型检测技术,从而避免构建多端二叉图时空间的快速增长.该技术首先定义概率计算树逻辑的限界语义,并证明其正确性;其次说明传统限界模型检测中以路径长度作为判断检测过程终止的标准已经失效,本文基于数值计算中牛顿迭代法的终止准则,设计了新的终止判断准则;然后提出基于线性方程组求解的限界模型检测算法;最后分析了概率度量增长的规律,并针对该规律给出了两种终止判别标准的修正方案.终止判别标准的设计与基于线性方程组求解的检测算法使得我们的技术完全异于传统限界检测.实验结果说明限界模型检测技术在证据较短的情况下,所需内存空间少于无界模型检测算法.
-
-
金杨恒;
曾伟
- 《2006年全国第十届企业信息化与工业工程学术年会》
| 2006年
-
摘要:
马尔可夫决策过程是确定性动态规划和马尔可夫过程结合的产物,是研究随机环境下多阶段决策过程优化问题的理论工具.DT-Golog是将马尔可夫决策过程引入Golog逻辑编程语言的扩展.本文针对动态工作流集成问题中业务逻辑的不确定性,利用DT-Golog对动态工作流集成问题进行建模,结合编程和规划二者的优点,最后得到最优策略.
-
-
Wang Wenshan;
王雯珊;
Cao Qixin;
曹其新
- 《第十一届中国智能机器人会议》
| 2015年
-
摘要:
针对经典规划模型和马尔可夫决策过程(MDP)模型的不足,提出了一种轻量马尔可夫决策过程(LMDP)模型.此模型在MDP模型上作了简化,使其既能描述实际任务中不确定性的特点,又有效降低了状态转移的分支系数,从而适用于大规模的问题.另外,利用经典规划领域的启发函数对LMDP问题进行初始化,能够大大加快收敛速度.最后以机器人酒吧任务为例,将此模型与基于MDP模型的Prost规划器在不同问题规模下进行对比,实验结果表明此模型能有效加快求解速度,并能够更好地适应大规模实际环境.
-
-
-
唐昊;
陈栋;
周雷
- 《第二十四届中国控制会议》
| 2005年
-
摘要:
本文研究马尔可夫决策过程(MDP)在actor-critic模式下,基于性能势学习的神经元动态规划(NDP)方法.首先,通过MDP的一个一致链的单个样本轨道,利用一个神经元网络逼近其性能势,并根据折扣和平均准则下统一的参数TD(λ)学习算法对性能势进行学习,即策略评估;然后,利用另一个神经网络表示策略,基于同一样本轨道和前述网络学习得到的性能势,改进网络参数,即进行参数策略改进.这种actor-critic优化方法可推广到模型参数已知的半马尔可夫决策过程(SMDP).最后,我们给出一个数值例子来说明算法的应用.
-
-
姜玉双
- 《第五届中国青年运筹与管理学者大会》
| 2003年
-
摘要:
本文对马尔可夫决策过程(Markov Decision Process,简记为:MDP)中概率准则的有关模型进行了综述.概率准则是实际问题中应用的比较广泛的一个重要准则.首先我们给出了MDP的一般构成.并介绍了一些经典的MDP模型,即以期望值为优化目标的期望模型,如有限阶段模型、折扣模型和平均模型等.其次我们介绍了MDP中关于概率准则模型的有关性质和有效算法.最后提出概率准则模型今后可能的研究方向.
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
- 东南大学
- 公开公告日期:2022-05-17
-
摘要:
本发明涉及一种基于马尔可夫决策过程的PoW共识协议安全评估方法,首先使用爬虫从对应的PoW共识协议应用浏览器中爬取得到区块链应用网络环境的实时数据,通过ns3网络模拟器编程模拟待评估的区块链应用的网络环境,包括挖矿过程和交易过程的模拟,获得模拟实验结果值。再和PoW共识协议的其它一些仿真参数一起直接输入到MDP模型的模拟器中。利用MDP模型模拟诚实矿工和恶意矿工的挖矿过程、交易过程和恶意矿工的攻击过程,通过目标函数量化共识协议抗攻击能力得到共识协议安全的一轮评估结果后判断是否到达预设定的阈值并调整下轮的输入参数。经过固定轮次的马尔可夫决策过程,给PoW共识协议的创建者提供该共识协议的修改建议。