首页> 中文学位 >部分可观马尔科夫决策过程直接基于观测的优化方法研究
【6h】

部分可观马尔科夫决策过程直接基于观测的优化方法研究

代理获取

目录

声明

摘要

表格索引

插图索引

第一章 绪论

1.1 部分可观Markov决策模型的背景

1.2 Markov决策过程基于灵敏度的优化方法现状简述

1.3 部分可观Markov决策过程优化方法简介

1.4 本文的研究内容和意义

1.4.1 研究内容

1.4.2 研究意义

1.5 文章结构

第二章 基于灵敏度的Markov决策过程-陛能优化

2.1 Markov决策过程数学模型

2.1.1 策略的定义

2.1.2 转移概率矩阵和报酬函数

2.1.3 性能准则

2.2 Markov过程灵敏度分析

2.2.1 摄动实现因子与性能势

2.2.2 Markov过程性能差公式与性能导数公式

2.2.3 策略迭代

2.2.4 性能势的数值计算方法和估计算法

2.2.5 性能梯厦的计算方法

2.2.6 基于性能梯度的优化算法

2.2.7 本章总结

第三章 直接基于观测的POMDPs优化方法

3.1 部分可观Markov决策过程提出原因

3.2 部分可观Markov决策过程的模型介绍

3.3 部分可观Markov决策过程的策略定义

3.4 部分可观Markov决策过程基于观测的性能灵敏度分析

3.5 直接基于观测的策略迭代算法

3.6 例子

3.7 本章小结

第四章 直接基于观测的大规模POMDPs系统策略迭代算法

4.1 大系统理论的思想和方法

4.2 大规模部分可观Markov决策过程系统模型

4.3 大规模部分可观Markov决策过程的性能灵敏度分析

4.4 大规模部分可观Markov决策过程的分层策略迭代优化算法

4.5 实例验证

4.6 本章小结

第五章 总结与展望

5.1 总结

5.2 展望

参考文献

致谢

在读期间发表的学术论文与取得的研究成果

展开▼

摘要

随机动态系统性能优化问题一直是众多科学领域的热点问题。对于一些状态具有马氏特征的复杂随机动态系统,系统的状态往往不可观,能够获得的是与系统状态存在一定关联的观测量。对于这一类状态具有马氏特征的复杂随机动态系统,Markov决策过程模型优化方法无法较高效地处理。因此部分可观Markov决策过程(POMDPs)作为Markov决策过程数学模型的推广被提出。部分可观Markov决策过程模型可以很好地刻画系统状态未知的这一类系统,具有比Markov决策过程更广泛的应用性。
  针对Markov决策过程性能优化问题,众多领域给出了不同的解决方法。近年来,一种基于灵敏度分析的优化方法被提出。该方法为众多领域的不同优化方法的有机地结合,形成了以性能势理论为基础,性能灵敏度公式为核心的优化方法。目前,对于部分可观Markov决策过程模型,基于系统观测的部分可观Markov决策过程的性能差分公式和性能导数公式已经被导出。不过目前给出的灵敏度公式的推导过程需要满足不同策略条件下条件稳态概率相同的假设;另外推导过程中一些参数和公式还依赖于系统状态。上述两个限制导致目前提出的基于观测的部分可观Markov决策过程的性能灵敏度的优化方法只能被应用于一些特殊的排队系统,不能被推广到一般的部分可观Markov决策过程。
  本文在目前已给出的部分可观Markov决策过程基于性能灵敏度方法基础上,提出一种新的直接基于观测的性能灵敏度优化方法。该方法仅依据于可被获得的系统观测空间。我们将给出仅仅依赖于观测的性能势、报酬函数等相关系统参数的定义。并根据基于观测的性能势与传统性能势的关系,推导出基于观测的泊松方程。整个推导过程仅仅依据于系统的观测,无需其他苛刻的条件限制。基于新方法的性能灵敏度分析可被推广到一般的部分可观Markov决策过程中,因此有广泛的实际应用性。本文将注重性能差公式的推导过程,并导出一种新的策略迭代算法。该算法可寻找出基于新方法的次优策略。
  本文针对大规模部分可观Markov决策过程模型的优化问题给出一种基于递阶控制理论的策略迭代算法。在递阶控制理论中,若干子系统的性能彼此相互制约相互关联,因此对于大规模部分可观Markov决策过程的优化问题是一种具有条件约束的优化问题。利用基于性能灵敏度的优化方法,给出了满足约束条件下的最优策略的充分条件。在此基础之上,一种基于递阶控制的策略迭代算法将被给出。此算法无需严格的假设条件可以被应用于许多实际问题当中。
  最后本文通过两个应用实例分析,验证了本文所提出的算法的适用性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号