文摘
英文文摘
声明
第一章绪论
1.1经典Bandit模型及应用
1.2经典Bandit模型的扩展
1.3 Bandit模型的计算
1.3.1动态规划
1.3.2特殊策略的最优性
1.3.3 Gittins指数策略
1.4论文的主要研究内容
第二章Bandit过程的预备知识
2.1马氏决策过程
2.1.1马氏决策过程的定义和分类
2.1.2离散时间马氏决策过程和半马氏决策过程
2.2 Bandit过程和Gittins指数定理
2.2.1 Bandit过程和Bandit过程族
2.2.2 Gittins指数定理
2.3折扣序列
第三章Bandit抽样过程的性质和方法
3.1 Bandit抽样过程和贝叶斯方法
3.1.1 Bandit抽样过程的定义和分类
3.1.2贝叶斯方法
3.1.3 Bandit抽样过程的基本原理
3.2几类特殊Bandit抽样过程的性质
3.2.1 Erlang(k)Bandit报酬过程
3.2.2 Erlang(2)Bandit目标过程
3.2.3考虑抽样时间间隔的特殊Bandit报酬过程
3.3报酬过程Gittins指数的渐进性质
第四章Bandit抽样过程的模型和计算
4.1校正方法
4.1.1校正方法的基本原理
4.1.2校正方法的简化
4.2 Erlang(k)Bandit报酬过程的最优决策问题
4.2.1基本模型
4.2.2计算最优平衡值∑(k)n的算法
4.1.3 Gittins指数和∑(k)n的渐近性质
4.3 Erlang(2)Bandit目标过程的最优决策问题
4.3.1基本模型
4.3.2计算最优平衡值∑n的算法
4.4考虑抽样时间间隔的特殊Bandit报酬过程的最优决策问题
4.4.1基本模型
4.4.2 Gittins指数的单调性质
4.4.3计算最优停止时间的算法
结论
参考文献
致谢
攻读学位期间主要的研究成果
中南大学;