声明
摘要
第1章 绪论
1.1 研究背景及意义
1.1.1 传统流媒体服务系统及其局限性
1.1.2 流媒体云概念
1.1.3 流媒体边缘云架构
1.2 研究现状
1.2.1 流媒体服务系统资源调度研究现状
1.2.2 会话迁移研究现状
1.2.3 强化学习研究现状及其在调度中的应用
1.2.4 研究现状总结
1.3 本文主要研究工作
1.4 论文组织结构
第2章 强化学习方法简介
2.1 强化学习及其理论基础
2.1.1 马尔可夫决策过程模型
2.1.2 强化学习的原理及模型
2.1.3 强化学习的组成要素
2.2 强化学习的常用算法
2.2.1 时序差分算法
2.2.2 Q学习算法
2.2.3 Sarsa算法
2.2.4 Actor-Critic算法
2.3 本章小结
第3章 流媒体边缘云会话调度问题
3.1 问题描述
3.2 统一调度模型
3.3 传统的会话调度方法
3.4 会话调度整体流程
3.4.1 基于传统调度方法的会话调度整体流程
3.4.2 基于深度强化学习方法的会话调度整体流程
3.5 单时刻的会话调度过程
3.6 本章小结
第4章 基于深度强化学习的会话调度策略
4.1 会话调度模型
4.2 会话调度的强化学习模型
4.2.1 状态空间和输入
4.2.2 动作集合和输出
4.2.3 即时回报
4.2.4 动作-价值函数
4.3 基于强化学习的会话调度算法
4.3.1 确定性策略方法
4.3.2 行为选择策略
4.3.3 动作-价值函数的存储与泛化
4.3.4 调度算法
4.4 本章小结
第5章 仿真实验及分析
5.1 基于确定性策略梯度的深度强化学习算法实现
5.1.1 实验平台的搭建
5.1.2 算法参数的设计
5.1.3 算法训练流程
5.2 流媒体边缘云会话调度仿真实验
5.2.1 请求接入仿真流程
5.2.2 仿真参数设置及其合理性说明
5.2.3 仿真实验结果与分析
5.3 本章小结
第6章 总结与展望
6.1 工作总结
6.2 未来展望
参考文献
致谢
在读期间发表的学术论文与取得的其他研究成果