首页> 中国专利> 基于深度强化学习的4G与5G网络间动态频谱共享方法

基于深度强化学习的4G与5G网络间动态频谱共享方法

摘要

本发明提供一种基于深度强化学习的4G与5G网络间动态频谱共享方法。考虑一个单基站覆盖的蜂窝网络,将基站视为智能体,其可调度的最小资源单位定义为资源块,包含时间和频率两个维度,基站的共享策略将针对资源块周期制定,即在每个决策周期内决定哪些资源块共享用于5G服务供应。本发明以4G网络服务质量保证和频谱共享效率为目标,通过深度强化学习使基站能够根据动态的环境信息不断改进策略,实现对4G闲置频谱的高效、合理利用。本发明不依赖特定模型,能够更加准确地制定共享策略。同时,本发明中基站能够利用训练好的神经网络基于当前环境的观测量直接制定共享策略,省去基于传统优化算法的复杂计算,避免了其带来的不可容忍的延迟。

著录项

  • 公开/公告号CN113810910A

    专利类型发明专利

  • 公开/公告日2021-12-17

    原文格式PDF

  • 申请/专利权人 大连理工大学;

    申请/专利号CN202111098334.3

  • 发明设计人 李轩衡;陈幸运;

    申请日2021-09-18

  • 分类号H04W16/10(20090101);H04W16/14(20090101);H04W24/02(20090101);

  • 代理机构21200 大连理工大学专利中心;

  • 代理人温福雪

  • 地址 116024 辽宁省大连市甘井子区凌工路2号

  • 入库时间 2023-06-19 13:43:30

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-05-20

    授权

    发明专利权授予

说明书

技术领域

本发明属于移动通信技术领域,具体涉及一种基于深度强化学习的智能型动态频谱共享方法。

背景技术

近年来,随着入网无线设备数量的激增,移动无线通信网络中的数据流量呈指数级增长,迫使移动通信网络向第五代(5G)演进。为了支撑海量数据传输和新兴应用场景,5G网络需要更多的频谱资源作为支持,频谱短缺已成为5G移动通信网络发展亟需解决的关键问题。然而,大量研究表明,在目前固定的频谱分配策略下,大量授权频段利用率很低,在部分地区和时段甚至不足20%,这与5G对频谱的迫切需求形成了强烈的矛盾。因此,如何有效利用有限的频谱资源,解决频谱供需矛盾,已成为移动通信领域的焦点难题。

为提高频谱利用效率,频谱共享技术被提出并迅速得到广泛关注,其主要思想是让非授权用户在不影响授权用户正常使用的前提下,机会性地使用空闲的授权频段。该共享理念已在5G频谱部署中得到体现,根据不同网络在不同时段的业务量的不同,动态分配某段频谱共享用于5G服务提供。频谱共享对5G发展具有重大意义,一是利于5G使用4G的低频段实现网络的泛在覆盖,比如2021年初中国移动和中国广电在700MHz频段上对5G业务的共建共享;二是利于4G向5G平滑演进,在5G初期用户数量不多时,可以动态地将频谱资源用于4G用户使用,而当5G用户逐渐增多时,可以为5G网络分配更多的频谱资源。然而,目前频谱共享的实施方案主要是大尺度下的静态共享,即在特定时段和较大区域内对固定频段进行释放和共享,灵活度不高,且仍存在频谱资源浪费现象。因此,更具优势的动态频谱共享技术被提出,旨在根据业务需求的实时变化动态分配频谱资源,从而大幅度提高频谱利用效率。目前关于4G与5G网络频谱动态共享的研究存在以下不足:

一、目前提出的动态频谱共享方法大多基于传统的优化理论将问题建成一个全局优化问题,进而得到最优的共享策略。然而,由于网络环境在空间和时间维度上的动态特性,网络中的流量需求等相关信息是不确定的,这使得优化建模和求解十分困难,难以实现。

二、动态频谱共享需要根据网络的状态实时调整共享策略,由于实际网络中通常有大量智能设备接入,数据类型多,信息维度大,即使能够通过优化手段得到最优策略,其问题求解的较高复杂度将带来难以容忍的延迟。

三、动态共享4G的频谱资源会带来一定的信道容量损失,即降低4G用户的网络速率,影响4G用户体验。因此,在制定共享策略时,需要前瞻地预测4G网络流量需求,在保证4G用户QoS(服务质量)的前提下,准确地制定频谱资源共享策略。

考虑上述目前研究存在的问题,本发明将基于深度强化学习设计一种以4G网络性能保证为前提,以频谱共享效率为目标的智能型4G与5G网络动态频谱共享方法,令基站可以通过学习网络环境快速制定最优策略。

发明内容

本发明的目的是克服目前网络对频谱利用的低效性,为移动通信网络提供一种4G与5G网络之间动态频谱共享方法。在移动通信网络中,不同区域和时段内的流量需求通常不同,且具有一定变化规律,本发明将通过学习不同区域内4G流量需求变化的潜在时间相关性,预测小区的未来4G流量需求,并依此制定相应的频谱共享策略,即将多余的4G频谱用于5G服务提供。

本发明的技术方案是基于深度强化学习方法实现4G与5G网络间动态频谱共享。强化学习的主要框架由智能体和环境组成,智能体从环境中获得观测状态,根据状态选择动作,然后得到一个奖励值并进入下一个状态。这个与环境交互的过程称为智能体的一个决策周期,其基本思路是指导智能体在每个状态下去选择一个动作使累积折扣奖励(也被称为Q值)最大化。在本发明中,某基站覆盖的区域下的频谱共享决策是周期制定的,在每个决策周期内,基站根据上一个决策周期结束时观测到的该区域的流量需求信息(即环境状态)去执行动作,即制定频谱共享策略,并根据动作结束后的状态去计算奖励值,用于评价该执行动作的好坏。基站会将状态、动作、动作结束后跳转的状态和计算得到的奖励值4组信息包成一个经验元组,存入经验池当中,用于网络训练,使其能够根据动态的环境信息不断地改进决策,以实现对4G闲置频谱的合理、高效利用。

本发明的一种基于深度强化学习方法实现4G与5G网络间动态频谱共享方法建立于以下系统环境:

考虑一个单基站覆盖的蜂窝网络,网络中包括4G和5G两种类型用户。基站覆盖区域被分为L个子区域,并且基站能够收集每个子区域中4G流量数据信息。基站总带宽为NMHz,分为F个子频带,每个子频带的带宽为B=N/FMHz。基站可调度的最小资源单位定义为资源块,每个资源块包含时间和频率两个维度,时域持续时间为T,频域带宽为B。在本发明中,基站会针对资源块周期地制定共享策略,即在每个决策周期T内决定哪些资源块共享用于5G服务供应。

具体步骤如下:

(1)基站首先构建两个结构完全相同的神经网络,分别是带有参数θ的Q主网络和带有参数

(2)基站会基于获取的状态信息s

(3)当基站根据ε-greedy策略执行了动作a

该奖励值设定对应三种情况:一是错误决策,当共享之后剩余的资源块数量少于需求量时,会对4G网络的吞吐量带来损失,故给予负奖励值;二是正确决策,即当共享之后剩余的资源块数量等于需求量时,此时共享效率最高,故给与正奖励值;三是保守决策,即当共享之后剩余的资源块数量多于需求量时,此时没有影响4G网络吞吐量,但没有使得共享效率最大化,所以令基站得到的奖励值为0。当基站计算得到奖励值后,会将经验元组(s

(4)每一个决策周期,基站都会执行上述的步骤。当内存为G的基站经验池溢出时,基站会移除最旧的经验元组并存入最新的经验元组,同时开始从经验池当中随机采样数量为S的一小批经验数据对网络进行训练。具体而言,小批量采样中的每一个经验元组(s

通过对损失函数求梯度来更新Q主网络参数,即

综上,基站将在观察到的状态下持续执行动作,与环境不断进行交互,并通过在此过程中获得的奖励值去指导基站进行学习。在训练的初始阶段,基站会设置较大的探索率ε去保证基站对未知环境的探索,随着其不断地与环境进行交互,探索率会逐渐下降,训练的网络也将逐渐收敛,最终找到最优的频谱共享策略。

本发明的效果和益处:

(1)相比目前大尺度下的静态频谱共享方案,本发明能在保证4G网络服务质量的前提下,实时准确地基于网络的业务需求动态地分配频谱资源,克服了其依然存在频带资源浪费和灵活性低的不足,可以显著提高频谱利用效率。

(2)相比目前基于传统优化算法的动态频谱共享方案相比,本发明不依赖特定模型,能够更加准确地制定共享策略。同时,本发明中基站能够利用训练好的网络基于当前环境的观测量直接制定频谱共享策略,省去了基于传统优化算法的复杂计算,避免了其带来的不可容忍的延迟。

(3)本发明基于深度强化学习设计的动态频谱共享方法,能使基站通过与环境的交互学习4G网络流量特征,并根据环境的动态变化实时自适应地制定策略,克服了网络环境动态性为基站制定频谱策略共享带来的难题。

附图说明

图1基于深度强化学习的动态频谱共享方法工作流程图。

具体实施方式

以下结合技术方案,进一步说明本发明的具体实施方式。

考虑某4G基站覆盖的蜂窝网络区域,整个区域被划分为4个子区域。根据LTE标准,一个资源块的时域持续时间为0.5ms,带宽为180KHz。每个资源块对应的持续时间即为决策周期。考虑LTE可用带宽为20MHz,左右各存在1MHz带宽的保护带,因此,每个决策周期内基站可调度的资源块数量为100个。

图1表示了整个工作流程,具体步骤如下:

基站首先会构建结构相同的两个神经网络,即带有网络参数θ的Q主网络和带有网络参数

在算法的初始阶段,探索率ε将会设置成一个较大的值,如0.9,在算法迭代过程中,令ε=0.9-0.0009×t使其逐渐下降,t为当前决策周期的序号。随着ε减小,网络的训练也将逐渐完成。当ε的值小于0.1时,将其固定设置为0.1,目的是让基站对所处的环境保持一定的探索能力。当训练收敛后,基站能直接通过训练完成的网络指导其在不同的状态下准确做出相应的频谱共享决策,以实现在保证4G网络服务质量的前提下,最大化利用闲置频谱资源。

下面给出算法全部流程:

初始化:

设定经验池大小G,小批量采样大小S,更新周期J,折扣因子γ,学习率α,贪婪因子ε=0.9,初始状态s

重复:

基站基于ε-greedy策略在状态s

转移到下一个状态s

收集经验元组信息:状态s

t←t+1

ε←0.9-0.0009×t

如果ε<=0.1

ε=0.1

如果t>G

移除记忆单元最旧的经验元组并存入最新的经验元组

随机采样S个经验元组对网络进行训练

计算损失函数L(θ),执行一次梯度下降并更新Q主网络参数θ

如果(t-G)mod J=0

Q主网络参数θ复制给Q目标网络参数

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号