首页> 中文学位 >基于深度强化学习的流媒体边缘云会话调度策略
【6h】

基于深度强化学习的流媒体边缘云会话调度策略

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景及意义

1.1.1 传统流媒体服务系统及其局限性

1.1.2 流媒体云概念

1.1.3 流媒体边缘云架构

1.2 研究现状

1.2.1 流媒体服务系统资源调度研究现状

1.2.2 会话迁移研究现状

1.2.3 强化学习研究现状及其在调度中的应用

1.2.4 研究现状总结

1.3 本文主要研究工作

1.4 论文组织结构

第2章 强化学习方法简介

2.1 强化学习及其理论基础

2.1.1 马尔可夫决策过程模型

2.1.2 强化学习的原理及模型

2.1.3 强化学习的组成要素

2.2 强化学习的常用算法

2.2.1 时序差分算法

2.2.2 Q学习算法

2.2.3 Sarsa算法

2.2.4 Actor-Critic算法

2.3 本章小结

第3章 流媒体边缘云会话调度问题

3.1 问题描述

3.2 统一调度模型

3.3 传统的会话调度方法

3.4 会话调度整体流程

3.4.1 基于传统调度方法的会话调度整体流程

3.4.2 基于深度强化学习方法的会话调度整体流程

3.5 单时刻的会话调度过程

3.6 本章小结

第4章 基于深度强化学习的会话调度策略

4.1 会话调度模型

4.2 会话调度的强化学习模型

4.2.1 状态空间和输入

4.2.2 动作集合和输出

4.2.3 即时回报

4.2.4 动作-价值函数

4.3 基于强化学习的会话调度算法

4.3.1 确定性策略方法

4.3.2 行为选择策略

4.3.3 动作-价值函数的存储与泛化

4.3.4 调度算法

4.4 本章小结

第5章 仿真实验及分析

5.1 基于确定性策略梯度的深度强化学习算法实现

5.1.1 实验平台的搭建

5.1.2 算法参数的设计

5.1.3 算法训练流程

5.2 流媒体边缘云会话调度仿真实验

5.2.1 请求接入仿真流程

5.2.2 仿真参数设置及其合理性说明

5.2.3 仿真实验结果与分析

5.3 本章小结

第6章 总结与展望

6.1 工作总结

6.2 未来展望

参考文献

致谢

在读期间发表的学术论文与取得的其他研究成果

展开▼

摘要

传统的基于CDN和P2P技术的流媒体系统存在可靠性差、扩展代价高等缺点。云计算技术的成熟使流媒体服务向云形态转变,流媒体云可以很有效地解决上述问题。将流媒体云放置在网络边缘,可以减轻核心网络的流量负载和提高用户请求的响应速度。通常情况下,流媒体边缘云系统资源是按需分配的。相比于传统流媒体服务系统,弹性的流媒体边缘云对资源调度具有更高要求。
  目前,流媒体边缘云资源调度问题的求解方法大多是传统的启发式方法或规划方法,存在自适应性不足、时间复杂度高等问题,难以根据系统运行场景进行策略调节。强化学习以试错的机制与环境进行交互,能够自动适应复杂环境,通过使累积回报值最大的方式来学习到最优策略。因此,本文使用了强化学习方法来解决流媒体边缘云系统会话调度问题,完成的主要工作如下:
  1)在考虑迁移代价、负载均衡等约束的前提下,提出了一种基于深度强化学习的流媒体边缘云会话调度策略。具体地,根据流媒体边缘云系统调度问题的特点,定义状态空间、动作集合、回报函数等元素,采用卷积神经网络拟合策略函数和动作-价值函数,分别解决高维输入和动作-价值函数的存储和泛化问题,通过确定性策略梯度强化学习算法来训练神经网络。
  2)实现了深度强化学习算法,并且采用该算法进行了仿真实验。首先,搭建实验平台,编程实现基于确定性策略梯度的强化学习算法,然后根据算法流程,完成神经网络的训练。最后,进行用户请求接入的仿真实验,利用训练好的策略网络来处理用户的请求接入问题。
  综上,本文基于深度强化学习方法实现了会话调度算法,并且进行了仿真实验来验证算法的有效性。实验结果表明,该策略能够取得很好的请求接入效果,并且降低了迁移代价,缩短了算法的运行时间。同时,算法在不确定的流媒体边缘云系统环境中具有一定的适应性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号