部分可观马尔科夫决策过程直接基于观测的优化方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随机动态系统性能优化问题一直是众多科学领域的热点问题。对于一些状态具有马氏特征的复杂随机动态系统，系统的状态往往不可观，能够获得的是与系统状态存在一定关联的观测量。对于这一类状态具有马氏特征的复杂随机动态系统，Markov决策过程模型优化方法无法较高效地处理。因此部分可观Markov决策过程(POMDPs)作为Markov决策过程数学模型的推广被提出。部分可观Markov决策过程模型可以很好地刻画系统状态未知的这一类系统，具有比Markov决策过程更广泛的应用性。
　　针对Markov决策过程性能优化问题，众多领域给出了不同的解决方法。近年来，一种基于灵敏度分析的优化方法被提出。该方法为众多领域的不同优化方法的有机地结合，形成了以性能势理论为基础，性能灵敏度公式为核心的优化方法。目前，对于部分可观Markov决策过程模型，基于系统观测的部分可观Markov决策过程的性能差分公式和性能导数公式已经被导出。不过目前给出的灵敏度公式的推导过程需要满足不同策略条件下条件稳态概率相同的假设;另外推导过程中一些参数和公式还依赖于系统状态。上述两个限制导致目前提出的基于观测的部分可观Markov决策过程的性能灵敏度的优化方法只能被应用于一些特殊的排队系统，不能被推广到一般的部分可观Markov决策过程。
　　本文在目前已给出的部分可观Markov决策过程基于性能灵敏度方法基础上，提出一种新的直接基于观测的性能灵敏度优化方法。该方法仅依据于可被获得的系统观测空间。我们将给出仅仅依赖于观测的性能势、报酬函数等相关系统参数的定义。并根据基于观测的性能势与传统性能势的关系，推导出基于观测的泊松方程。整个推导过程仅仅依据于系统的观测，无需其他苛刻的条件限制。基于新方法的性能灵敏度分析可被推广到一般的部分可观Markov决策过程中，因此有广泛的实际应用性。本文将注重性能差公式的推导过程，并导出一种新的策略迭代算法。该算法可寻找出基于新方法的次优策略。
　　本文针对大规模部分可观Markov决策过程模型的优化问题给出一种基于递阶控制理论的策略迭代算法。在递阶控制理论中，若干子系统的性能彼此相互制约相互关联，因此对于大规模部分可观Markov决策过程的优化问题是一种具有条件约束的优化问题。利用基于性能灵敏度的优化方法，给出了满足约束条件下的最优策略的充分条件。在此基础之上，一种基于递阶控制的策略迭代算法将被给出。此算法无需严格的假设条件可以被应用于许多实际问题当中。
　　最后本文通过两个应用实例分析，验证了本文所提出的算法的适用性。

著录项

作者
季哲;
展开▼
作者单位

中国科学技术大学;

展开▼
授予单位中国科学技术大学;
学科控制理论与控制工程
授予学位硕士
导师姓名奚宏生;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类人工智能理论;
关键词
部分可观Markov决策过程; 最优策略; 性能优化; 灵敏度;

相似文献

中文文献
外文文献
专利

1. 基于认知无线电的部分可观测马尔科夫决策过程衰落信道的接入 [J] . 方媛 ,车启凤 . 兰州文理学院学报：自然科学版 . 2017,第002期
2. 基于认知无线电的部分可观测马尔科夫决策过程衰落信道的接入 [J] . 方媛 ,车启凤 . 甘肃联合大学学报（自然科学版） . 2017,第002期
3. 部分可观察马尔科夫决策过程优化不稳定型心绞痛中西医结合临床治疗方案的建模方法与验证研究 [J] . 冯妍 ,冯奇 ,王以新 . 中国全科医学 . 2020,第017期
4. 基于部分可观察马尔科夫决策过程(POMDP)的贪婪算法次优频谱接入 [J] . 张娟 . 科学技术与工程 . 2014,第015期
5. 基于部分可观测马尔可夫决策过程的水声传感器网络介质访问控制协议 [J] . 徐明 ,刘广钟 . 计算机应用 . 2015,第011期
6. 基于部分可观测马尔可夫决策过程的水声传感器网络介质访问控制协议 [C] . XU Ming ,徐明 ,LIU Guangzhong . 2015年全国开放式分布与并行计算学术年会 . 2015
7. 基于部分可观测马尔科夫决策过程的干扰决策研究 [A] . 张思齐 . 2019

部分可观马尔科夫决策过程直接基于观测的优化方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅