首页> 中国专利> 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法

动态频谱环境中基于多智能体强化学习的频率功率联合分配方法

摘要

一种动态频谱环境中基于多智能体强化学习的频率功率联合分配方法,实现动态频谱环境中频率功率联和分配的时隙结构包括三个时隙:感知决策时隙、传输时隙和确认时隙;感知决策时隙实现主用户状态的感知,并获取传输时隙的频率功率联和决策;传输时隙实现信息传输,并且在接收端估计链路增益,计算当前回报值和度量所受干扰大小;确认时隙用于接收ACK信号、链路增益、当前回报值和所受干扰大小的反馈信息,并且更新多智能体强化学习过程中所需要的行为回报函数,历史干扰表,以及对其他认知链路频率策略的估计值。本发明能够在动态的频谱环境中实现实时的,性能优越的频率功率联和分配。

著录项

  • 公开/公告号CN102448070A

    专利类型发明专利

  • 公开/公告日2012-05-09

    原文格式PDF

  • 申请/专利权人 中国人民解放军理工大学;

    申请/专利号CN201210006680.9

  • 发明设计人 王金龙;吴启晖;刘鑫;郑学强;

    申请日2012-01-11

  • 分类号H04W16/14(20090101);H04W72/04(20090101);

  • 代理机构32218 南京天华专利代理有限责任公司;

  • 代理人夏平

  • 地址 210007 江苏省南京市御道街标营2号105信箱

  • 入库时间 2023-12-18 05:08:35

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-04-16

    授权

    授权

  • 2012-06-27

    实质审查的生效 IPC(主分类):H04W16/14 申请日:20120111

    实质审查的生效

  • 2012-05-09

    公开

    公开

说明书

技术领域

本发明涉及无线通信技术中的认知无线电领域,具体讲是基于多智能体强化学习实现 在动态频谱环境中频率功率联合分配的新方法。

背景技术

目前,随着无线通信业务种类的快速增长,对无线频谱资源的需求也呈指数增长,使 得未来无线通信中的频谱资源“匮乏”问题日益突出。认知无线电技术在保证主用户服务 质量的条件下以“伺机接入”的方式利用授权用户的空闲频段,大大提高了频谱的使用效 率,是解决“频谱匮乏”问题的有效方法。认知网络中(cognitive radio networks简称CRN) 的频率功率联合分配技术通过合理的分配各认知用户或次级用户(secondary user,简称 SU)所使用的频率和功率,尽可能的减少SU之间的干扰,提升认知无线网络的吞吐量。 因此,频率功率联合分配技术是保证认知无线网络传输效率的前提和基础。

频率功率联合分配是实现认知网络共享CRN频谱资源的主要方法之一。通过合理配置 SU的接入信道以及发射功率,实现在不干扰主用户(primary user,简称PU)的前提下, 优化认知网络的吞吐量性能。然而与非认知系统的资源分配不同,由于PU占用状态的动 态变化,认知用户的可用频谱资源同样是动态的,因此SU必须根据PU状态实时的调整 策略。此时给联合分配方法的设计带来许多新的挑战。

强化学习(reinforcement learning,简称RL)采用对外界环境和自身决策不断探测的方 式,获取在动态环境中,能最优化长远收益的决策。通过采用RL学习方法,单个SU能 够适应频谱资源的动态性,实现最大化长远收益的频率功率联合决策。然而在多个SU并 存时,由于各SU的频率功率联和决策互相影响,互相制约,且处于动态变化之中,因此 RL学习方法的性能将大打折扣,甚至无法收敛。

多智能体强化学习方法(multi-agent reinforcement learning,简称MARL)考虑了在多 个学习者共存时,对环境的动态变化和其它学习者策略动态变化的学习问题。其主要思想 是将RL学习方法中的单个用户决策学习扩展至多个用户的联合决策学习,因此能有效地 解决单个用户决策学习的低效性和不稳定性。近年来MARL方法在无线资源分配领域得到 了广泛应用。

发明内容

本发明的目的是针对PU占用信道状态动态变化时,多个SU共存的CRN网络中的频 率功率联和分配问题,提出一种动态频谱环境中基于多智能体强化学习的频率功率联合分 配方法。

本发明的技术方案是:

一种动态频谱环境中基于多智能体强化学习的频率功率联合分配方法,实现动态频谱 环境中频率功率联和分配的时隙结构包括三个时隙:感知决策时隙、传输时隙和确认时隙; 感知决策时隙实现主用户状态的感知,并获取传输时隙的频率功率联和决策;传输时隙实 现信息传输,并且在接收端估计链路增益,计算当前回报值和度量所受干扰大小;确认时 隙用于接收ACK信号、链路增益、当前回报值和所受干扰大小的反馈信息,并且更新多智 能体强化学习过程中所需要的行为回报函数,历史干扰表,以及对其他认知链路频率策略 的估计值。

一种动态频谱环境中基于多智能体强化学习的频率功率联合分配方法,包括下列步 骤:

步骤1.参数初始化,完成以下工作

1.1网络中每个认知链路i,i∈{1,...,N}初始化其行为回报函数即Q函数

Qi,0(x,fw)=0,x∈X,fi∈Fi

其中x表示状态变量,而X表示所有状态集合,fi表示与认知链路i以及与其存在干扰关 系的所有认知链路的联合频率决策,而Fi则表示联和频率选择fi所有可能组合的联合频 率决策集合;

1.2初始化认知链路的历史干扰大小即I值表

Ii,0(x,fi)=N0,x∈X,fi∈Fi

其中N0表示表示噪声功率;

1.3初始化其他认知链路频率策略的估计值

π^j,0=(x,fj)=1/|Fj|,j{1,...,N},ji

其中fj表示认知链路j的频率选择,Fj表示认知链路j可选的频率集合,|·|表示求解集 合的势,|Fj|表示用户j可选频率集的大小;

步骤2.感知决策时隙之频率决策:实现主用户状态的感知和认知链路的频率决策, 通过执行以下分布式方法实现:

在t,t=0,1,2,...次迭代中,首先,每个认知链路i,i∈{1,...,N}通过执行2.1求解出针对 每一个状态和联合频率决策的平均Q函数;然后基于2.1获取的平均Q函数,通过执行2.2 求解认知链路的频率策略;根据链路的频率策略,执行2.3获取最终的频率决策;

2.1计算平均Q函数

Qi,t(x,fi)=Σf-iQi,t(x,fi,f-i)ΠjNiπ^j(x,fj)

其中Ni表示与认知链路i构成干扰关系的认知链路集合,而(fi,f-i)=fi是联合频率选择的 另一种表示方法;

2.2计算认知链路的频率策略πi(x,fi)

其中τ>0是温度因子,决定用户策略的随机程度,当τ=0时,所得的频率策略就是完全 随机策略。

2.3基于频率策略获取频率决策fi,t;(根据说明书中图2所给出的方法实现)

步骤3.感知决策时隙之功率决策:实现主用户状态的感知和认知链路的功率决策, 通过执行以下分布式方法实现

在t,t=1,2,...次迭代中,首先,每个认知链路i,i∈{1,...,N}通过执行3.1求解出功率 调整因子,该值的大小表示认知链路对自身发射功率的抑制程度;然后基于功率调整因子, 通过执行3.2求解各链路的功率决策;

3.1计算功率调整因子λi,t

λi,t=cIi,t(xt+1,fti)hi,i

其中c>0表示固定常数,由系统参数所决定,hi,i表示链路i的链路增益,由接收端通过信 道估计获取;

3.2计算功率决策pi,t

pi,t=[1λi,tln2-Ii,t(xt+1,fti)hi,i]piminpimax

其中表示min{b,max(a,c)},分别表示链路i的最大发射功率和最小发射功 率;

步骤4.传输时隙:实现信息传输,并且在接收端估计链路增益,计算当前回报值和 度量所受干扰大小,按照以下方式执行

4.1度量当前决策下的干扰大小

Ii(xt+1,ftipti)=N0+ΣjNipj,thj,i

其中表示在第t次迭代时,认知链路i以及与其存在干扰关系的所有认知链路的功率决 策;为认知链路i在当前状态xt+1和当前频率功率联合决策下的所受的 干扰大小;

4.2计算当前回报值

ri,t+1=0fi,tΛi(xt+1)log2{1+pi,thi,i/[ii(xt+1,ftipti)]}-λi,tpi,tfi,tΛi(xt+1)

其中Λi(xt+1)表示在状态xt+1时,链路i的可用频率集合(表示可选频率集合中,未被主用 户占用的频率集合);

步骤5.确认时隙:用于接收ACK信号、链路增益、当前回报值和所受干扰大小的反馈 信息,并且更新多智能体强化学习过程中所需要的行为回报函数,历史干扰表,以及对其 他认知链路频率策略的估计值:

5.1Q函数更新

Qi,t+1(xt,fti)=Qi,t(xt,fti)+αt[ri,t+1+γmaxfiQi,t(xt+1,fi)-Qi,t(xt,fti)]

其中αt表示学习速率,γ表示学习方法的折扣因子。

5.2I值表更新

5.3其他链路策略估计更新

π^j,t(x,fj)=π^j,t-1(x,fj)+δWtj(x,fj)=1π^j,t-1(x,fj)-δ||Fi||-1Wtj(x,fj)=0

其中δ>0为一可调整的常数,为随机变量表示链路i在状态x时,所观察到 链路j选取频率策略fj这一事件,为1则表示该事件出现,为0则表示该事件未出现。

本发明的有益效果:

1、本发明能够适应环境的动态变化。认知链路通过对环境和其它用户策略探测,可 以实时的作出最优化长远回报的频率功率联和决策。

2、本发明的网络操作是无交互,全分布式的。在所提方案中,不需要任何的中心协 调器(如基站,接入点,簇头等),无需任何信息交互,因此,所提方案具备网络可扩展 性好以及信息交互量小等优点。

3、本发明的学习方法的实现复杂度低。在联合频率决策的学习过程中,各认知链路 只需要考虑与其构成干扰关系的其他链路策略,减小了MARL学习方法的联合行为空间, 使得网络可以适应大规模的网络结构。

4、本发明将离散策略学习与连续策略学习相结合。在所提方案中,将离散的频率策 略学习和连续的功率决策学习相融合,提升了联合分配的性能。

附图说明

图1为本发明中认知网络的时隙结构图。

图2基于频率策略获取频率决策的方法流程图

图3为本发明中所提方法的详细步骤示意图。

图4为本发明中具体实例的仿真网络模型图。

图5为本发明中所提方案与传统方案的性能比较示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的说明。

本发明提供的基于多智能体学习的频率功率联和分配方法,本发明采用如图1所示的 认知网络时隙结构,每个完整的传输过程由3个时隙组成。第一个时隙用于频率功率联和 决策,第二个时隙用于信息的传输,第三时隙用于ACK的接收。时隙1,每一个认知链路 根据感知出的主用户状态,和上一传输过程中的Q函数,I值表以及其他链路的策略估计 值,进行频率决策和功率的联合决策。时隙2,认知链路进行信息传输,同时根据本次信 息传输所获取的吞吐量求解当前的瞬时回报值,并且将Q函数进行更新。时隙3,接收ACK 确认信号,从ACK中获取本链路的状态,所受干扰状况,并同时更新I值表和其他链路策 略的估计值。

(1)参数初始化,完成以下工作

1.1网络中每个认知链路i,i∈{1,...,N}初始化其行为回报函数(Q函数)

Qi,0(x,fi)=0,x∈X,fi∈Fi            (1)

其中x表示状态变量,而X表示所有状态集合,fi表示与认知链路i以及与其存在干扰关 系的所有认知链路的联合频率选择,而Fi则表示联和频率选择fi所有可能的联合频率选 择集合。

1.2初始化历史干扰大小(I值表)

Ii,0(x,fi)=N0,x∈X,fi∈Fi            (2)

其中N0表示表示噪声功率。

1.3初始化其他认知链路频率策略的估计值

π^j,0=(x,fj)=1/|Fj|,j{1,...,N},ji

其中|·|表示求解集合的势,Fj表示认知链路j可选的频率集合,因此|Fj|表示用户j可选 频率集的大小。

(2)频率策略学习,通过执行以下分布式算法实现

在t,t=0,1,2,...次迭代中,首先,每个认知链路i,i∈{1,...,N}通过执行2.1求解出针对 每一个状态和频率决策的平均Q函数;然后基于2.1获取的平均Q函数,通过执行2.2求 解各用户在的频率策略;根据链路的频率策略,执行2.3获取最终的频率决策。

2.1计算平均Q函数

Qi,t(x,fi)=Σf-iQi,t(x,fi,f-i)ΠjNiπ^j(x,fj)---(3)

其中Ni表示与认知链路i构成干扰关系的认知链路集合,而(fi,f-i)=fi是联合频率选择的 另一种表示方法。

2.2计算认知链路的频率策略πi(x,fi)

其中τ>0是温度因子,决定用户策略的随机程度,当τ=0时,所得的频率策略就是完全 随机策略。

2.3基于频率策略获取频率决策fi,t

(3)功率策略学习,通过执行以下分布式算法实现

在t,t=1,2,...次迭代中,首先,每个认知链路i,i∈{1,...,N}通过执行3.1求解出功率 调整因子,表示对发射功率的抑制程度;然后基于功率调整因子,通过执行3.2求解各链 路的功率决策。

3.1计算功率调整因子λi,t

λi,t=cIi,t(xt+1,fti)hi,i---(5)

其中c>0表示固定常数,由系统参数所决定,hi,i表示链路i的链路增益。

3.2计算功率决策pi,t

pi,t=[1λi,tln2-Ii,t(xt+1,fti)hi,i]piminpimax---(6)

其中表示min{b,max(a,c)},而分别表示链路i的最大发射功率和最小发射功 率。

(4)获取当前回报值,按照以下方式执行

4.1度量当前决策下的干扰大小

Ii(xt+1,ftipti)=N0+ΣjNipj,thj,i---(7)

4.2计算当前回报值ri,t+1

ri,t+1=0fi,tΛi(xt+1)log2{1+pi,thi,i/[ii(xt+1,ftipti)]}-λi,tpi,tfi,tΛi(xt+1)---(8)

其中Λi(xt+1)表示在状态xt+1时,链路i的可用频率集合

(5)更新学习参数,完成以下工作

5.1Q函数更新

Qi,t+1(xt,fti)=Qi,t(xt,fti)+αt[ri,t+1+γmaxfiQi,t(xt+1,fi)-Qi,t(xt,fti)]---(9)

其中αt表示学习速率,γ表示学习算法的折扣因子。

5.2I值表更新

5.3其他链路策略估计更新

π^j,t(x,fj)=π^j,t-1(x,fj)+δWtj(x,fj)=1π^j,t-1(x,fj)-δ||Fi||-1Wtj(x,fj)=0---(11)

其中δ>0为一可调整的常数,为随机变量表示链路i在状态x时,所观察到链路 j选取频率策略fj这一事件,为1则表示该事件出现,为0则表示该事件未出现。

本发明实施例:

本发明的一个具体实例如下所示,参数设置不影响一般性。如图3所示,在2个主用 户覆盖区域内,包含3个待进行频率功率联和分配的认知链路。认知链路用户可以选择当 主用户空闲时的任一主用户信道,认知链路发射机在[0dBm~20dBm]之间选取即 pmin=0dBm,pmax=20dBm,噪声功率设置为N0=-86.5758dBm,接受功率与Euclidian距 离的平方成反比。认知网络的环境状态采用主用户占用信道的转移概率进行描述,为了便 于表述,令两主用户占用信道的转移概率相同,并且设置为 PT=P(0,0)=1-θP(0,1)=θP(1,0)=1-θP(1,1)=θ,其中θ表示主用户对信道的占用率,其值越小说明信道 越空闲。如此设置的原因是为了仿真表述更加清晰,而并非所提算法的必要要求。学习算 法中的参数设计如下:折扣因子设置为γ=0.5,学习速率设置为策略估 计参数δ=0.01,功率调整常数c=0.002。本发明提出的基于多智能体学习得频率功率联 和分配方法具体过程如下:

1、在执行联合分配算法前,首先对于所有认知链路,针对其任意状态,任意频率组合 初始化Qi,0(x,fi)=0,Ii,0(x,fi)=-86.58dBm,

2、分布式的执行学习算法的循环迭代过程,在每一个决策时隙,首先感知当前的主用 状态,计算该状态的平均Q函数然后根据平均Q函数计算出认知链路的 频率策略πi(x,fi),最后基于频率策略得到传输时隙的频率决策fi

3、根据当前主用户状态,以及上步骤2所获取的频率决策fi,查询I值表,得到历史 干扰值计算功率调整计算功率调整因子λi,t,最后根据历史干扰和功 率调整因子得到传输时隙的功率决策pi,t

4、认知链路进行信息传输,接收端记录传输的信息量,所受的干扰状态,传输的链路 增益,通过ACK将这些信息反馈给发送端;

5、首先根据接收方反馈的ACK信息,以及功率调整因子,计算当前回报值ri,t+1,然 后更新Q函数,历史干扰I值表,同时更新对对其他链路策略的估计值;

6、由于本发明所提算法为在线决策算法,因此不需要设置终止条件。

图4给出了传统方法与本专利所提方法的吞吐量性能比较仿真图。从图4可以看出, 本发明所提方法的性能明显优于传统方法。这是由于传统方法不考虑最优感知信道集合的 选择,即在每一个感知时隙内把所有授权信道都感知一遍,并且传统方法还假设各个授权 信道的可用概率是不变的。

本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号