首页> 中文学位 >Erlang(k)Bandit抽样过程
【6h】

Erlang(k)Bandit抽样过程

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1经典Bandit模型及应用

1.2经典Bandit模型的扩展

1.3 Bandit模型的计算

1.3.1动态规划

1.3.2特殊策略的最优性

1.3.3 Gittins指数策略

1.4论文的主要研究内容

第二章Bandit过程的预备知识

2.1马氏决策过程

2.1.1马氏决策过程的定义和分类

2.1.2离散时间马氏决策过程和半马氏决策过程

2.2 Bandit过程和Gittins指数定理

2.2.1 Bandit过程和Bandit过程族

2.2.2 Gittins指数定理

2.3折扣序列

第三章Bandit抽样过程的性质和方法

3.1 Bandit抽样过程和贝叶斯方法

3.1.1 Bandit抽样过程的定义和分类

3.1.2贝叶斯方法

3.1.3 Bandit抽样过程的基本原理

3.2几类特殊Bandit抽样过程的性质

3.2.1 Erlang(k)Bandit报酬过程

3.2.2 Erlang(2)Bandit目标过程

3.2.3考虑抽样时间间隔的特殊Bandit报酬过程

3.3报酬过程Gittins指数的渐进性质

第四章Bandit抽样过程的模型和计算

4.1校正方法

4.1.1校正方法的基本原理

4.1.2校正方法的简化

4.2 Erlang(k)Bandit报酬过程的最优决策问题

4.2.1基本模型

4.2.2计算最优平衡值∑(k)n的算法

4.1.3 Gittins指数和∑(k)n的渐近性质

4.3 Erlang(2)Bandit目标过程的最优决策问题

4.3.1基本模型

4.3.2计算最优平衡值∑n的算法

4.4考虑抽样时间间隔的特殊Bandit报酬过程的最优决策问题

4.4.1基本模型

4.4.2 Gittins指数的单调性质

4.4.3计算最优停止时间的算法

结论

参考文献

致谢

攻读学位期间主要的研究成果

展开▼

摘要

本文研究的对象是Bandit抽样过程,它包括两个基本模型:Bandit报酬过程和Bandit目标过程。Gittins对基于常见分布的Bandit抽样过程进行了研究,如BemouUi Bandit抽样过程和负指数Bandit抽样过程。本文在Gittins的基础上,利用动态规划向后归纳方法和贝叶斯方法,研究了目前在实际中应用更广泛的Bandit抽样过程。 本文的主要研究内容如下: 一、对几类特殊Bandit抽样过程的参数的后验分布、抽样值的条件分布和抽样报酬函数等进行了计算,讨论了它们的单调性质。 二、研究了抽样值服从Erlang(k)分布的Erlang(k)Bandit报酬过程的最优决策问题,构造了计算描述最优选择的平衡值序列的算法,并研究了过程Gittins指数和平衡值序列的渐近性质,这有效解决了Erlang(k)Bandit报酬过程的最优决策问题。将Bandit报酬过程基于的分布从负指数分布推广至Erlang(k)分布,是对Bandit报酬过程的补充和推广。 三、研究了抽样值服从Erlang(2)分布的Erlang(2)Bandit目标过程的最优决策问题,提出了计算描述最优选择的平衡值序列的算法。将Bandit目标过程基于的分布从负指数分布推广至Erlang2)分布,是对Bandit目标过程的补充和推广。 四、到目前为止,大多数研究Bandit过程的文献没有考虑抽样时间间隔,均假设一致折扣或几何折扣,并不符合某些实际情况。本文对考虑实时折扣,抽样时间间隔服从负指数分布,抽样值服从Erlang(2)分布,允许在任意时刻跳转的Bandit报酬过程进行推导和计算,讨论了过程Gittins指数的单调性质,构造了计算过程最优停止时间的算法。考虑服从负指数分布的抽样时间间隔,能使Bandit报酬过程更符合实际应用。同时,将抽样值服从的分布从负指数分布推广至目前在实际中应用更为广泛的Erlang(2)分布,也是对Bandit报酬过程的补充和推广。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号