首页> 中国专利> 基于多智能体强化学习的移动边缘计算卸载方法

基于多智能体强化学习的移动边缘计算卸载方法

摘要

本发明公布了一种基于多智能体强化学习的移动边缘计算卸载方法,属于边缘计算、无线网络领域,为“多用户‑多边缘节点”的复杂场景提供了一种智能的任务卸载方法。该方法采用多智能体强化学习算法,各用户设备在本地建立Actor和Critic深度学习网络,分别根据自己及其它设备的状态和动作进行动作选择和动作打分,综合考虑频谱资源、计算资源和能量资源,以优化任务延迟为目标制定卸载和资源分配策略。该方法不依赖网络具体模型,各设备能够通过“探索‑反馈”的学习过程自主智能地进行最优策略制定,且能够适应网络环境的动态变化。

著录项

  • 公开/公告号CN112367353A

    专利类型发明专利

  • 公开/公告日2021-02-12

    原文格式PDF

  • 申请/专利权人 大连理工大学;

    申请/专利号CN202011067955.0

  • 发明设计人 李轩衡;汪意迟;李慧瑶;

    申请日2020-10-08

  • 分类号H04L29/08(20060101);H04W28/08(20090101);G06N3/04(20060101);G06N3/08(20060101);G06N20/00(20190101);

  • 代理机构21200 大连理工大学专利中心;

  • 代理人温福雪;侯明远

  • 地址 116024 辽宁省大连市甘井子区凌工路2号

  • 入库时间 2023-06-19 09:52:39

说明书

技术领域

本发明属于边缘计算、无线网络领域,涉及一种基于多智能体深度强化学习的计算卸载方法,特别涉及到计算任务卸载策略和多维资源联合分配问题。

背景技术

随着移动互联网技术的不断发展,虚拟现实、在线游戏、人脸识别、图像处理等计算密集型新兴应用迅速崛起。然而,由于终端设备的计算能力有限,这些计算密集型应用的普及受到限制。为解决该问题,云计算应运而生,其将终端设备端复杂的计算任务上传至计算能力更强大的云服务器上执行,以此来解除这些新兴应用对设备计算能力的依赖。然而传统的云计算解决方案存在较大的传输延迟和过高的回程带宽需求问题,难以满足未来海量的计算需求,因此,移动边缘计算的概念被提出。

移动边缘计算是指在移动网络边缘部署计算和存储资源,为移动网络提供IT服务环境和计算能力,用户可以将部分或全部计算任务交给边缘代理服务器进行处理,从而为用户提供超低时延的计算解决方案。其中,如何制定计算卸载策略是移动边缘计算的关键问题,主要包括卸载决策和资源分配这两方面。卸载决策是指根据用户的任务负载、数据量等属性,综合考虑能耗、响应时间等因素,决定是否卸载、卸载目标、卸载任务量等策略;资源分配重点解决终端设备在卸载过程中的资源占用问题,主要包括设备的能量和计算资源的分配。

目前针对移动边缘计算任务卸载和资源分配的联合策略设计主要基于全局优化方法,即假设网络中心节点已知全局信息,以最小化能耗或最小化延迟为目标,以移动终端的能量及计算资源、任务的延迟容忍等为约束建立优化问题并求解,从而获得最优策略。然而,这种决策优化问题通常是NP困难问题,尤其当网络规模较大时,即使通过启发式求解算法仍然需要通过较长的计算时间开销来获得最优策略。此外,网络的状态通常是动态变化的,这需要中心节点不断地求解复杂的优化问题,且难以自适应地跟踪网络的动态环境。

近年来,随着人工智能技术的迅速发展,强化学习算法受到了广泛关注。强化学习是机器学习的一个重要分支,主要由智能体、环境、状态、动作和奖励组成。智能体以“试错”的方式进行学习,通过与环境进行交互获得的奖励指导行为,从而使智能体随着时间的推移自适应地实现特定目标的最优。由于强化学习是对动作进行评价并根据反馈修正动作选择及策略,所以其不需要依赖先验知识,且能够自适应地跟踪环境变化,适合解决较为复杂的决策问题,因此可以借助强化学习算法实现智能的计算卸载。考虑到网络中通常存在多个终端设备需要进行决策制定,且各自策略会彼此影响,本发明设计基于多智能体强化学习的计算卸载方法。与传统的的优化求解方法相比,该方法不需要求解复杂的优化问题,可有效降低决策制定的时间开销,更具有可行性,此外,各设备能够自适应地跟踪网络环境变化,智能地自主制定策略。因此,本发明设计的方法具有更佳的应用前景。

发明内容

本发明的目的是从网络总体性能角度出发,综合考虑用户设备的状态以及网络的通信与计算资源,为网络中各用户设备提供一种基于多智能体深度强化学习的智能边缘计算卸载方法。

本发明中,分别用

第1、定义网络中各用户设备n在时隙j的状态集,动作集和奖赏函数。

定义1:用户设备n在时隙j的状态集用

①.

表完成任务所需的CPU循环数;

②.

充电的功率为

③.

定义2:用户设备n在时隙j的动作集用

①.

②.

③.

④.

定义3:用户设备n在时隙j的奖赏函数定义为:

1、关于总时延

①.本地处理时延

其中,

τ

②.任务传输时延

其中,

③.边缘节点处理时延

当边缘服务器同时处理多个计算任务时,假设每个任务平分计算资源。时隙j内用户设备n选择的边缘节点

2.任务失败惩罚因子

假设所有任务的最大时延容忍度均为δ(秒),则有:

①.若

②.若

③.除去①、②中所述的情况之外,均视为任务处理成功,任务失败惩罚因子

第2、将用户设备

每个智能体中均包含Actor网络和Critic网络,这两者又均包含在线深度神经网络和目标深度神经网络两个部分。其中Actor在线网络可以模拟当前的策略,即根据智能体输入的状态观测值输出实时的动作,并施加到环境中获取当前奖赏值和下一个时隙的状态;Actor目标网络的输出动作并不会实际执行,只是用来协助Critic进行参数的更新。Critic在线网络可依据所有智能体的当前状态和Actor在线网络输出的动作对Actor在线网络的输出进行评估;Critic目标网络可依据所有智能体的下一个状态和Actor目标网络输出的动作对Actor目标网络的输出进行评估。Critic在线与目标网络一同协助智能体完成策略的更新。使用在线和目标双网络模型的目的是让算法的学习过程更稳定,收敛更快。此外,该算法中还含有用于存储训练数据的经验池D。当需要进行网络训练时,从经验池中随机抽取小批量数据进行训练,由此来去除样本间的相关性和依赖性。具体步骤如下:

第2.1、随机初始化N个智能体的Actor在线网络参数

第2.2、对于任意时隙j,将各智能体的状态

①.以概率1-ε根据Actor在线网络的输出确定动作,公式如下:

其中

②.以概率ε随机选择动作

第2.3、各智能体执行动作

第2.4、将(x

第2.5、更新网络参数。对于智能体n=1到N,Actor和Critic网络参数的更新如下所示:

第2.5.1、从经验池D中随机抽取S个经验,设(x

①.将N个智能体的状态值

②.定义目标评价值,并计算各智能体的目标评价值。

定义4:定义智能体n使用第k∈{1,...,S}个取样经验计算得到的目标评价值为:

其中γ为可人为设置的参数,

第2.5.2、Critic在线网络的损失函数计算如下:

为最小化损失函数

第2.5.3、Actor在线网络的策略梯度计算如下:

基于梯度上升法更新Actor在线网络的参数

第2.5.4、利用

本发明的效果和益处

1、相比传统的全局优化方法,策略的制定不依赖网络参量的具体模型,且智能的强化学习算法使得策略能够适应环境的变化。

2、本发明采用多智能体强化学习算法,适用于“多用户-多边缘节点”的复杂网络场景,能够综合网络中各用户之间的影响,实现网络整体效用的最优。

3、本发明考虑了用户设备的充电特性,联合优化了“能量-通信-计算”多维资源。

具体实施方式

以4个用户设备和2个基站组成的移动边缘系统为例,设每个用户与基站之间都有2个信道可供使用,每个信道带宽为0.6MHz,信道的增益服从瑞利分布。每一个时隙的长度为1秒,假设用户在每个时隙通过无线充电收集到的能量服从泊松分布。两个基站的最大CPU循环频率分别为10GHz和30GHz,分配给各个任务的CPU循环频率分别为5GHz和10GHz。各设备在每个时隙初产生的任务的数据大小和需要消耗的CPU循环在一定范围内随机生成。

下表为基于多智能体强化学习算法的具体方案流程:

每一个智能体的Actor和Critic的在线和目标神经网络均采用四层全连接层的结构,包括输入层、两个隐藏层以及输出层。每个隐藏层设置为64个神经元,激活函数为ReLU。其中Actor网络的输入为状态集,输出为动作集,故其输入层设置为4个神经元,输出层设置为5个神经元,且设置输出层的激活函数为Softmax;Critic网络的输入为状态集和动作集的合集,输出为评价值,故其输入层设置为9个神经元,输出层设置为1个神经元。探索率ε初始化为0.9,每个时隙探索率ε将乘以0.999下降,直至下降到0.1保持不变。在进行网络训练时,每次从经验池中抽取的批量数S为256,经验池D的最大容量为10

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号