首页> 中文学位 >多目标约束连续时间马氏决策过程的折扣模型
【6h】

多目标约束连续时间马氏决策过程的折扣模型

代理获取

目录

文摘

英文文摘

第一章引言

1.1马尔可夫决策过程的发展历史

1.2准则

1.3文章的选题意义、主要内容和结构

第二章目标模型

2.1几个定义

2.2若干假设

2.3模型及结论

第三章模型的转换

3.1连续时间下的几个方程

3.2模型的转化

第四章转化后的模型的解

4.1目标问题

4.2若干定义

4.3 Pareto最优

4.4多约束条件折扣模型的解

第五章定理2.1的证明

第六章例子

6.1问题的提出及问题的模型

6.2最优解的存在

参考文献

致谢

声明

展开▼

摘要

本文研究的是具有可数状态空间、紧的行动空间、有界转移率函数及上半连续报酬率函数的多约束条件马尔可夫决策过程。目的是解决在其它的报酬率函数的折扣期望满足约束条件时,使目标报酬率函数的折扣期望最大的最优决策的存在性问题。我们将在文章中提出一些假设以保证约束最优策略的存在,也进一步证明存在平稳的约束最优策略,而且约束最优平稳策略可选择的行为的个数不会超过马氏平稳决策所采用的行为个数加上约束条件的个数。文章是通过模型转换,把连续时间模型转换成离散时间模型,再通过解决转换后的问题来解决原问题的。最后我们通过一个例子进一步说明本文所得的结果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号