首页> 中国专利> 一种认知无线网络中分布式多用户动态频谱接入方法

一种认知无线网络中分布式多用户动态频谱接入方法

摘要

本发明公开了一种认知无线网络中分布式多用户动态频谱接入方法,该方法如下:步骤一、构建系统模型,所述系统模型为:小区中的n个授权用户和k个认知用户共享b个信道;其中:n、k和b取不为零的自然数,且n和b的取值相等;k>n;步骤二、采用DQN算法对认知用户进行频谱选择和接入,具体为:设定初始Q函数,设定每一个认知用户作为一个执行者,每一个执行者按照DQN算法进行动作选择,即从b个信道中选择一个进行传输,计算系统的平均效用值,采用演进博弈理论设定奖赏值;然后训练神经网络,用神经网络作为函数逼近器,得到更新后的Q函数;步骤三、继续执行步骤二,直至得到的系统容量趋于定值。在高频谱需求情况下,频带利用率高。

著录项

  • 公开/公告号CN108880709A

    专利类型发明专利

  • 公开/公告日2018-11-23

    原文格式PDF

  • 申请/专利权人 西北工业大学;

    申请/专利号CN201810737835.3

  • 申请日2018-07-06

  • 分类号H04B17/309(20150101);H04B17/382(20150101);H04L12/24(20060101);H04W16/10(20090101);

  • 代理机构61219 陕西增瑞律师事务所;

  • 代理人刘艳霞

  • 地址 710072 陕西省西安市碑林区友谊西路127号

  • 入库时间 2023-06-19 07:23:16

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-05-07

    授权

    授权

  • 2018-12-18

    实质审查的生效 IPC(主分类):H04B17/309 申请日:20180706

    实质审查的生效

  • 2018-11-23

    公开

    公开

说明书

技术领域

本发明属于无线通信技术领域,具体涉及一种认知无线网络中分布式多用户动态频谱接入方法。

背景技术

随着无线通信技术的迅速发展与无线设备的普及以及新业务的不断增长,频谱资源变得越来越紧缺,固定可用的频谱资源已经无法满足用户的通信要求,加之低频谱利用率所带来的频谱资源不足等问题变得日益严重,使得无线通信系统在推动经济和社会发展时受到了频谱资源的约束。目前认知无线电技术已经成为了解决低频谱利用率问题的关键技术,该技术的主要思想是首先检测哪些频谱处于空闲状态,然后智能选择和接入这些空闲频谱,这大大提高了频谱利用率。

为了提高用户的体验质量和缓解频谱压力,最近已经有许多认知无线网络中动态频谱管理相关的工作被完成。这些研究工作很大程度上提高了频谱利用率。但是这些都有其局限性,如虽然能够得到纳什均衡和演进稳定均衡,但是对环境的要求较高,且用户没有经过学习的过程,收敛速度慢。或者研究的是军用网络,是建立在军用网络中的每个辅助无线电节点可以根据其优先级分配频谱资源的前提上的,应用有一定的局限性。有的并没有考虑到各用户之间的均衡与协调,系统比较不稳定。

发明内容

本发明所要解决的技术问题在于针对上述现有技术的不足,提供一种认知无线网络中分布式多用户动态频谱接入方法,在高频谱需求情况下,频带利用率高。

为解决上述技术问题,本发明采用的技术方案是,一种认知无线网络中分布式多用户动态频谱接入方法,该方法如下:

步骤一、构建系统模型,所述系统模型为:小区中的n个授权用户和k个认知用户共享b个信道;其中:n、k和b取不为零的自然数,且n和b的取值相等;k>n;

步骤二、采用DQN算法对认知用户进行频谱选择和接入,具体为:

设定初始Q函数,设定每一个认知用户作为一个执行者,每一个执行者按照DQN算法进行动作选择,即从b个信道中选择一个进行传输,计算系统的平均效用值,采用演进博弈理论设定奖赏值;然后训练神经网络,用神经网络作为函数逼近器,得到更新后的Q函数;

步骤三、继续执行步骤二,直至得到的系统容量趋于定值。

进一步地,系统的平均效用值为计算过程如下:

首先确定每个认知用户的传输效用值ui,1≤i≤k,具体为:采用信噪比作为效用值:

且第i个认知用户独占信道p;

(1);

则:

其中:SNRi表示第i个认知用户获得的信噪比;

yp为信道p上授权用户的状态;为1时,表明该信道被授权用户占用;为0时,表明该信道未被授权用户占用;

Si为第i个认知用户发送的信号功率;

Np为信道p的噪声功率;

为与第i个认知用户选择同一信道的其他用户发送的信号功率总和;

进一步地,采用演进博弈理论确定奖赏值的过程如下:

奖赏值函数的设置如下:

其中:

r为奖赏值;

表示与第i个用户选择相同信道的认知用户占总认知用户的比值的变化率;

变化率大于等于0,则奖赏值为+1;变化率小于0则奖赏值为-1。

进一步地,训练神经网络的过程如下:

设定误差函数:

对神经网络进行训练,更新网络θ,以逼近Q函数值;

其中:

θ是网络参数;

是其中一种网络的参数值;

是另一种网络的参数值;

E表示求均值;

表示取该网络参数的最大值;

s表示状态;

a表示动作,选择哪一个信道;

s'下一时刻的状态;

a'表示下一时刻选择哪一个信道。

本发明一种认知无线网络中分布式多用户动态频谱接入方法具有如下优点:1.通过将深度强化学习与演进博弈论相结合,提出了一种认知无线电网络中分布式多用户动态频谱接入的新方法。

2.利用DQN算法作为主框架进行动态频谱接入,每个用户作为独立的代理实施DQN算法,进行信道选择和学习,以不断增加系统容量,同时减少用户之间的碰撞率。

3.引入演进博弈理论,并利用复制者动态模型来设置强化学习算法的奖赏函数,以均衡分布式多用户的独立学习。

附图说明

图1:认知无线网络结构图;

图2:系统频谱环境结构图;

图3:强化学习原理图;

图4:DQN算法流程图;

图5:采用与不采用DQN-RD方法,系统容量仿真对比图;

图6:采用与不采用DQN-RD方法,用户碰撞率仿真对比图;

图7:当仅信道数量变化时,采用DQN-RD方法系统容量仿真图。

具体实施方式

本发明一种认知无线网络中分布式多用户动态频谱接入方法,如图1所示,步骤一、构建系统模型,所述系统模型为:小区中的n个授权用户和k个认知用户共享b个信道;其中:n、k和b取不为零的自然数,且n和b的取值相等;k>n;,n个授权用户分别被授权使用这些信道,假设n和k都是不变的。系统的频谱环境如图2所示,n个授权用户被授权使用b个信道,而k个非授权用户只能寻找机会,在授权用户不进行传输的空闲时间利用其中的频谱机会。将时间分为等长时隙,授权用户和非授权用户保持时隙同步,数据包被分成能够在一个时隙传完的长度。所有非授权用户一直有发包需求,每个非授权用户都具备独立学习和决策的能力,非授权用户采用独立学习算法来选择最佳信道来尝试接入。

由于动态频谱的选择和接入问题可以表示为具有连续状态和动作空间的离散时间马尔可夫决策过程,而且移动环境中状态转移概率和所有状态的期望奖励往往都是未知的,因此将功率分配问题表示为一个马尔可夫过程。一般情况下,马尔可夫决策过程由一个四元数组表示,即M=<S,A,P,R>。

采用DQN算法对认知用户进行频谱选择和接入,具体为:

设定初始Q函数,设定每一个认知用户作为一个执行者,每一个执行者按照DQN算法进行动作选择,即从b个信道中选择一个进行传输,计算系统的平均效用值,采用演进博弈理论设定奖赏值;然后训练神经网络,用神经网络作为函数逼近器,得到更新后的Q函数;继续执行上述步骤,直至得到的系统容量趋于定值。

在本发明研究的系统模型中,每一个认知用户作为一个执行者,独立的执行DQN算法进行信道选择和接入。每一个执行者在时刻t可选择的动作集A={a1,a2,...,ab},ab在时刻t每一个认知用户能够选择的b个信道。状态集用S={s1,s2,...,sb}表示,sb表示时刻t的状态,sb包括两个数据:执行者所选择的信道p(1≤p≤b)和在信道p上传输后得到的效用值ui(1≤i≤b)。奖赏函数R我们引入演进博弈理论的相关知识进行设置。

引入信噪比来作为系统的效用值,具体如下:

其中:yp为信道p上授权用户的状态;Si为第i个认知用户发送的信号功率;Np为信道p的噪声功率;为与第i个认知用户选择同一信道的其他用户发送的信号功率总和。

则:

采用复制动态方程设置奖赏值:

其中:ε为影响演进速度的因子;

xi表示与第i个用户选择相同信道的认知用户占总认知用户的比值;

u表示群体中选择接入信道的个体所得的期望效用,群体指的是所有k个认知用户的集合;

为群体平均期望效用;

奖赏值函数的设置如下:

其中:

r为奖赏值;

表示与第i个用户选择相同信道的认知用户占总认知用户的比值的变化率;

采第i个用户选择的信道;变化率大于等于0则奖赏值为+1,变化率小于0则奖赏值为-1。

本发明采用的DQN算法是一种将Q学习与神经网络相结合的算法。DQN算法中使用了神经网络作为函数逼近器来逼近Q函数,而训练神经网络的基本思想是通过最小化代价函数来训练神经网络的参数,以此获得最优的神经网络参数。

因此,在Q网络中,设定误差函数:

对神经网络进行训练,更新网络θ,以逼近Q函数值;

求出误差函数关于参数θ的梯度,就可以用随机梯度下降等方法训练神经网络,更新参数得到最优的Q值。为区别与Q函数,公式(5)和(6)中采用符号,以区别与本发明中的Q值。

其中:

θ是网络参数;

是其中一种网络的参数值;

是另一种网络的参数值;

E表示求均值;

表示取该网络参数的最大值;

s表示状态;

a表示动作,选择哪一个信道;

s'下一时刻的状态;

a'表示下一时刻选择哪一个信道。

公式(5)和(6)为现有技术中已有的,将其用于本发明中的模型中。

Q学习是强化学习中的一种常用算法,Q学习用Q值表示状态动作对值,Q函数用Q(s,a)描述,其含义是在状态s选择行为a所获得的奖赏及随后策略所获得奖赏的期望。Q函数的更新准则为:

其中α∈(0,1]是学习率,β∈(0,1]是折扣因子,rt为奖赏函数。

本发明研究的系统模型中,每一个认知用户作为一个执行者,独立的执行DQN算法进行信道选择和接入。第i个执行者在时刻t可选择的动作集A={a1,a2,...,ab},在时刻t执行者能够选择的b个信道;状态集用S={s1,s2,...,sb}表示,时刻t的状态sb包括两个数据:执行者所选择的信道p(1≤p≤N)和在信道p上传输后得到的效用ui(1≤i≤K)。

如图3和4所示,在每个时隙,每一个认知用户作为一个独立的执行者按照DQN算法进行动作选择,从b个信道中选择一个进行传输。传输后得到每个认知的传输效用ui。同时计算出每个认知的信道容量,以及系统的平均容量。接着根据每个认知用户的传输效用值ui计算平均效用按照演进博弈理论中的复制动态方程计算每个认知用户的策略演变率xi。按照奖赏函数设置规则,根据xi的大小得到奖赏值。最后训练神经网络,更新Q值,进行下一时隙的动作选择,直至得到的系统容量趋于定值。

本发明对所提的方案进行了仿真分析,如图1所示,在仿真中,我们考虑次用户的数量k=300,信道数量n=100,并且100个主用户被授权分别使用这100个信道。

图5显示了不同信道接入方案在系统容量方面的比较。带菱形的线表示DQN-RD方法,带圆形的线表示随机接入。从图中可以看出,随着时隙增加,采用DQN-RD方法的系统容量也在增加,并且在550个时隙之后基本稳定。采用随机接入的系统容量波动且不呈现增加趋势。虽然在学习开始的某个时候,带圆圈的蓝线可能比带菱形的青线更高,但其并不表现出上升的趋势。

在图6中,我们显示了不同接入方案随在用户冲突率方面的比较。冲突率是指不同的次用户选择相同频道的概率。根据图6,我们可以得出结论:使用DQN-RD算法,用户冲突率将逐渐降低,因此信道的利用率将增加,系统将逐渐稳定。这是因为在计算效用函数时,考虑了相互访问同一信道的次用户的干扰。学习可以有效地减少这种冲突。与DQN-RD算法相比,随机接入方案会导致随机波动的结果。

图7表示当使用DQN-RD算法时,系统容量随信道数量的变化。当其他参数不变,但只有信道数发生变化时,系统容量变化趋势的仿真结果如图7所示。可以看出,在用户数相同的情况下,无论可用频道数量多少,算法均可以有效地提高系统容量。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号