首页> 中国专利> 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法

一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法

摘要

本发明公开了一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法,其技术方案要点是包括提供信道分配系统以及若干用户终端,信道分配系统与用户终端通信连接;信道分配系统内配置有遵循部分可观测马尔可夫链的动态多信道模型,动态多信道模型根据当前时隙的各信道状态通过最优策略算法计算下一时隙的最优信道分配方式,最优策略算法通过深度强化学习方法进行训练优化。该方法通过深度强化学习避免了庞大的指数级计算量,在保证用户终端通信质量的前提下,使得用户终端可以快速接入最优信道,提高频谱利用率。

著录项

  • 公开/公告号CN112188503A

    专利类型发明专利

  • 公开/公告日2021-01-05

    原文格式PDF

  • 申请/专利号CN202011055360.3

  • 发明设计人 徐友云;李大鹏;蒋锐;

    申请日2020-09-30

  • 分类号H04W16/10(20090101);G06N3/08(20060101);

  • 代理机构11684 北京沁优知识产权代理有限公司;

  • 代理人王丽君

  • 地址 210000 江苏省南京市栖霞区尧化街道科创路1号二期02幢268室

  • 入库时间 2023-06-19 09:27:35

说明书

技术领域

本发明涉及通信技术领域,更具体的说是涉及一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法。

背景技术

无线频谱是无线通信中的一种有限而珍贵的自然资源,现有无线通信是采取基于授权的方法分配频谱,即将无线频谱划分成若干固定宽度的频谱段,由政府管理部门分配给用户终端单独使用。但是随着无线通信技术的迅速发展以及新业务的不断增长,加之,频谱利用率的低效带来的频谱资源短缺的问题,频谱资源变得越来越稀缺,日益稀缺的频谱已经无法满足无线通信日益增长的需求。这一现象也促进了高效地动态频谱接入方案的发展,以迎合新兴的无线网络技术。其中认知无线电技术已经成为提高频谱利用率的关键技术,该技术的主要思想是检测哪些频谱处于空闲状态,然后智能选择和接入这些空闲频谱,这样能够大大提高频谱利用率。

作为认知无线电技术的关键技术之一的动态频谱接入技术的研究正在展开,现有的方法主要是马尔可夫建模,即将用户终端的动态频谱接入过程建模成马尔可夫模型。用二维或者多维的马尔可夫链精确的描述接入过程。通过马尔可夫建模虽然能够提高频谱利用率,但是对环境的要求较高,且系统没有经过学习的过程,收敛速度慢。

随着强化学习的蓬勃发展,给动态频谱接入技术带来了新的研究。强化学习是指从环境状态到动作映射的学习,强化学习着重研究在状态转移概率函数未知的情况下,系统如何学习最优行为策略。强化学习对环境知识要求较少,对动态变化环境适应性强,应用到无线网络时兼容性较好,这些特点都使得强化学习在认知无线电领域的营业具有广泛的前景。然而,当用户终端数剧增时,强化学习产生的状态量也是幂级的,算法复杂度变得非常大,这种指数级计算量导致强化学习难以实际运用。

发明内容

针对现有技术存在的不足,本发明的目的在于提供一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法,该方法能够避免进行庞大的指数级计算,在保证用户终端通信质量的前提下,使得用户终端可以快速接入最优信道,提高频谱利用率。

为实现上述目的,本发明提供了如下技术方案:一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法,提供信道分配系统以及若干用户终端,所述信道分配系统与所述用户终端通信连接;

所述信道分配系统内配置有遵循部分可观测马尔可夫链的动态多信道模型,所述动态多信道模型根据当前时隙的各信道状态通过最优策略算法计算下一时隙的最优信道分配方式,所述信道状态表征在所述信道上是否成功发送数据,所述最优策略算法通过深度强化学习方法进行优化,所述深度强化学习方法包括以下步骤;

S10,所述信道分配系统内配置有经验池、主神经网络以及目标神经网络,所述经验池用于存储数据集,所述经验池具有容量阀值D,所述容量阀值D表征所述经验池存储数据集的最大值,通过所述最优策略算法构建所述主神经网络和目标神经网络,所述主神经网络和所述目标神经网络的参数均包括信道状态、执行动作以及神经网络的权重,所述信道状态为s,所述执行动作为a,所述执行动作a表征信道的分配方式,所述神经网络的权重为w,另目标神经网络的权重等于主神经网络的权重,并进入S20;

S20,所述信道分配系统根据用户终端当前时隙分配的信道的信道状态s,通过预设的分配算法得到下一时隙的执行动作a,并进入S30;

S30,所述信道分配系统根据执行动作a分配信道至用户终端,所述通信分配系统通过预设的奖励算法,以用户终端是否通过信道成功发送数据为变量,计算得到奖励值r

S40,所述信道分配系统通过当前时隙的信道状态s

S50,判断所述经验池的容量是否达到所述容量阀值D,若未达到,则令s

S60,所述信道分配系统以随机采样方式从所述经验池中获取若干组数据集(s

S70,通过预设的误差算法计算估计Q值与实际Q值的误差值,并根据梯度下降法更新主神经网络的权重w,并进入S80;

S80,每隔预设的更新间隔步数C,令w

S90,将误差值与预设的收敛临界值比较,当误差值大于收敛临界值时,返回步骤S30,反之,则结束,所述收敛临界值表征主神经网络收敛状态下的最大误差值。

作为本发明的进一步改进,所述动态多信道模型为遵循部分可观测马尔可夫链的动态多信道模型,所述动态多信道模型遵循的约束条件为:

C1:

C2:

C3:

C4:Ω(t+1)=Ω'(t)P

C5:

C6:

其中:C1为部分可观测马尔可夫链的状态空间,每个状态s

C2是置信向量,

C3是置信向量中每个可能的状态的更新方式,I(·)是一个指示函数,a(t)为t时隙用户终端接入的信道,o(t)为t时隙用户终端接入的信道的信道状态观测值,所述观测值为1表征信道状态好,所述观测值为0.5表征信道状态不确定,所述观测值为0表征信道状态差;

C4是置信向量的更新公式,P是部分可观测马尔可夫链的转移矩阵;

C5是最优策略算法,γ为预设的折扣因子,r

C6是当累计的奖励值最大时得到的最优的信道分配策略。

作为本发明的进一步改进,所述分配算法配置为:

其中,

作为本发明的进一步改进,所述奖励算法配置为:

作为本发明的进一步改进,所述实际Q值算法配置为:

其中,y

作为本发明的进一步改进,所述误差算法配置为:

L(w)=(y

其中,L(w)为所述误差值。

本发明的有益效果:信道分配系统中配置有动态多信道模型,用于计算最优信道分配方式,并通过深度强化学习实现对最优策略算法的不断优化。该动态多信道接入方法降低了对环境的要求,使得信道分配系统可以经过学习快速将各信道以最优化的方式分配至各个用户终端,并且将动态多信道模型通过深度强化学习方法进行求解,由此避免了庞大的指数级计算量。因此该动态多信道接入方法能够避免进行庞大的指数级计算,在保证用户终端通信质量的前提下,使得用户终端可以快速接入最优信道,提高频谱利用率。

附图说明

图1为深度强化学习方法的流程图;

图2为无线网络动态多信道接入场景图;

图3为深度强化学习方法的结构图;

图4为误差算法在不同学习速率下的收敛对比图;

图5为误差算法在学习速率为0.1时的收敛图;

图6为动态多信道模型采用深度强化学习方法后与理想状态以及随机选择在归一化奖励方面的对比;

图7为动态多信道模型采用深度强化学习方法后与理想状态以及随机选择在误差值方面的对比。

具体实施方式

下面结合附图和实施例,对本发明进一步详细说明。

参照图1、图2、图3所示,本实施例的一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法,提供信道分配系统以及若干用户终端,所述信道分配系统与所述用户终端通信连接。

所述信道分配系统内配置有遵循部分可观测马尔可夫链的动态多信道模型,所述动态多信道模型用于根据当前时隙的各信道状态通过最优策略算法计算下一时隙的最优信道分配方式。动态多信道模型的配置原理如下:

参照图2所示,假设某一范围内覆盖有一个基站和M个用户终端,每个用户终端需要从N个信道中选择一个发送数据包。并且假设用户一直有数据要发送,以及N个信道相互正交。在每个时隙,用户终端需要动态的感知信道的状态并选择一个来发送数据,信道的状态为三种,分别为信道状态好、信道状态不确定以及信道状态差,信道状态好表示用户终端的数据能够成功发送,信道状态不确定表示用户终端的数据不一定能够成功发送,信道状态差表示用户终端的数据无法成功发送。用S来对信道状态进行数据话表示,表示规则如下:

用户终端根据分配的信道的实际信道状态获得相应的奖励,若用户终端选择的是信道状态好的,则会得到一个正的奖励值(+1);若用户终端选择的是信道状态差的,则会得到一个负的奖励值(-1);若用户终端选择的状态是信道状态不确定的,则也会得到一个负的奖励值(-0.1),用r

用一个3

其中,P

C1:

C2:

C3:

C4:Ω(t+1)=Ω'(t)P

C5:

C6:

其中:C1为部分可观测马尔可夫链的状态空间,每个状态s

C2是置信向量,

C3是置信向量中每个可能的状态的更新方式,I(·)是一个指示函数,在每个时隙,信道分配系统需要给用户终端分配接入策略,a(t)为t时隙用户终端接入的信道,即用户终端的执行动作,将用户终端的执行动作进行数据化表示:

a

其中a

o(t)为t时隙用户终端接入的信道的信道状态观测值,所述观测值为1表征信道状态好,所述观测值为0.5表征信道状态不确定,所述观测值为0表征信道状态差。

C4是置信向量的更新公式,P是部分可观测马尔可夫链的转移矩阵。

C5是最优策略算法,γ为预设的折扣因子,r

在动态多信道模型中,信道分配系统需要去最大化长期的累加折扣奖励值,累加折扣奖励值表征根据当前的信道状态,预测之后一段时隙执行动作后获得的奖励值的累计值,累加折扣奖励值的计算算法配置为:

其中,折扣因子γ(0≤γ≤1),通过该算法,使得预测的时隙距离当前时隙越久,则获得的奖励值的绝对值相对越小,从而使得预测的时隙距离当前时隙越久,对累加折扣奖励值的影响越小。

C6是通过贝尔曼方程找到最优的信道分配策略π

Q学习是强化学习中最常用的求解π

S10,所述信道分配系统内配置有经验池、主神经网络Q(s,a;w)以及目标神经网络Q(s',a';w

S20,所述信道分配系统根据用户终端当前时隙分配的信道的信道状态s,通过预设的分配算法得到下一时隙的执行动作a。所述分配算法配置为:

其中,

S30,所述信道分配系统根据执行动作a分配信道至用户终端,所述通信分配系统通过预设的奖励算法,以用户终端是否通过信道成功发送数据为变量,计算得到奖励值r

即信道分配系统将信道分配给用户终端,用户终端根据信道状态观测值o

S40,所述信道分配系统通过当前时隙的信道状态s

S50,判断所述经验池的容量是否达到所述容量阀值D,若未达到,则令s

S60,所述信道分配系统以随机采样方式从所述经验池中获取若干组数据集(s

其中,y

S70,通过预设的误差算法计算估计Q值与实际Q值的误差值,误差算法配置为:

L(w)=(y

并根据梯度下降法更新主神经网络Q(s,a;w)的权重w,具体方式如下:

其中,α为预设的学习速率,并进入S80。

S80,每隔预设的更新间隔步数C,令w

S90,将误差值与预设的收敛临界值比较,当误差值大于收敛临界值时,返回步骤S30,反之,则结束,所述收敛临界值表征主神经网络Q(s,a;w)收敛状态下的最大误差值。

主神经网络Q(s,a;w)和目标神经网络Q(s',a';w

表1主要参数设置

参照图4、图5所示,学习速率的大小直接影响误差算法的收敛性能。若学习率太小,收敛速度会很慢;若学习速率太大,会跳过最优,甚至会产生震荡。因而学习速率的设定非常重要。参照图4所示,随着训练次数的增加,3条曲线的都趋向收敛,尤其是当学习速率为0.01的时候,只需要很少的训练次数就可收敛;参照图5所示,当学习速率设置为0.1的时候,误差值出现了突然的骤增,性能很差。

图6、图7为动态多信道模型采用深度强化学习方法后的性能与理想状态以及随机选择的情况的对比。理想状态时,信道分配系统计算所有可能的选择,并选择在每个回合中最大化Q值的接入策略,这种情况可以认为是理想状态。随机选择时,信道分配系统在每个回合中都随机的选择接入策略。参照图6、图7所示,采用深度强化学习方法后获得的归一化奖励要远远胜于随机选择的性能,尽管随机选择有最低的误差值。当ε设置为0.99的时候,采用深度强化学习方法后获得的归一化奖励比理想状态低12.45%,当ε设置为0.9的时候,采用深度强化学习方法后获得的归一化奖励近乎接近理想状态,这证明了本发明的动态多信道接入方法在动态多信道模型中通过深度强化学习方法可以得到一个接近最优的信道分配方式。

以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号