声明
摘要
表格索引
插图索引
第一章 绪论
1.1 部分可观Markov决策模型的背景
1.2 Markov决策过程基于灵敏度的优化方法现状简述
1.3 部分可观Markov决策过程优化方法简介
1.4 本文的研究内容和意义
1.4.1 研究内容
1.4.2 研究意义
1.5 文章结构
第二章 基于灵敏度的Markov决策过程-陛能优化
2.1 Markov决策过程数学模型
2.1.1 策略的定义
2.1.2 转移概率矩阵和报酬函数
2.1.3 性能准则
2.2 Markov过程灵敏度分析
2.2.1 摄动实现因子与性能势
2.2.2 Markov过程性能差公式与性能导数公式
2.2.3 策略迭代
2.2.4 性能势的数值计算方法和估计算法
2.2.5 性能梯厦的计算方法
2.2.6 基于性能梯度的优化算法
2.2.7 本章总结
第三章 直接基于观测的POMDPs优化方法
3.1 部分可观Markov决策过程提出原因
3.2 部分可观Markov决策过程的模型介绍
3.3 部分可观Markov决策过程的策略定义
3.4 部分可观Markov决策过程基于观测的性能灵敏度分析
3.5 直接基于观测的策略迭代算法
3.6 例子
3.7 本章小结
第四章 直接基于观测的大规模POMDPs系统策略迭代算法
4.1 大系统理论的思想和方法
4.2 大规模部分可观Markov决策过程系统模型
4.3 大规模部分可观Markov决策过程的性能灵敏度分析
4.4 大规模部分可观Markov决策过程的分层策略迭代优化算法
4.5 实例验证
4.6 本章小结
第五章 总结与展望
5.1 总结
5.2 展望
参考文献
致谢
在读期间发表的学术论文与取得的研究成果
中国科学技术大学;