首页> 中国专利> 基于GAPSO算法的最优自适应策略决策方法

基于GAPSO算法的最优自适应策略决策方法

摘要

本发明提出了一种基于PSO算法的最优自适应策略决策方法,用于解决现有技术在自适应策略空间中策略数量较为巨大的情况下决策效率低的技术问题。实现步骤为:(1)获取自适应系统的决策需求;(2)建立自适应策略空间;(3)构造适应度函数;(4)利用GA算法的交叉和变异对自适应策略空间进行计算,得到中间策略空间,并利用GA算法的选择从中间策略空间选择最优适应度函数值对应的自适应策略加入到目标策略空间,再利用PSO算法对中间策略空间中剩余的自适应策略进行更新,将更新结果加入到目标策略空间中,得到目标策略空间;(5)获取最优自适应策略。本发明具有决策效率高、适用范围广、可避免自适应策略之间的冲突的优点。

著录项

  • 公开/公告号CN107229971A

    专利类型发明专利

  • 公开/公告日2017-10-03

    原文格式PDF

  • 申请/专利权人 西安电子科技大学;

    申请/专利号CN201710418901.6

  • 发明设计人 李青山;王璐;张彦;何柳;张曼;

    申请日2017-06-06

  • 分类号

  • 代理机构陕西电子工业专利中心;

  • 代理人韦全生

  • 地址 710071 陕西省西安市雁塔区太白南路2号

  • 入库时间 2023-06-19 03:30:12

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-10-08

    授权

    授权

  • 2017-11-03

    实质审查的生效 IPC(主分类):G06N3/12 申请日:20170606

    实质审查的生效

  • 2017-10-03

    公开

    公开

说明书

技术领域

本发明属于计算机技术领域,涉及一种最优自适应策略决策方法,具体涉及一种基于GAPSO算法的自适应策略空间中最优自适应策略的决策方法。适用于自适应策略空间巨大、搜索过程耗时较长的自适应软件系统中,满足了自适应软件需要快速决策的系统需求。

背景技术

随着越来越多的软件系统运行在互联网、云计算、大数据等动态、开放、多变、难以预测和控制的环境中,软件系统面临的变化越来越多,也越来越复杂。自适应系统是为了使软件系统能够在上述复杂环境中正常运行而提出来的。自适应软件系统的核心功能之一是当变化发生时,系统能够快速地对该变化做出响应使软件可保持正常运行。因此,能够在由数量巨大的、表示对已经发生的变化的调整方法的自适应策略构成的策略空间中快速决策出最优自适应策略就成了影响自适应软件系统功能和性能的关键因素。

目前,国内外的相关学者及研究人员多采用基于并行任务分配调度机制的决策方法和基于强化学习技术的决策方法来解决该问题。2008年,局部合作的多智能体Q-Learning算法被提出,该算法在存在合作关系的Agent之间进行联合动作的选取,否则,执行单个Agent的Q-Learning算法,局部合作的多智能体Q-Learning算法未度量每个Agent对系统的影响并且依靠经验区分Agent之间的合作与独立状态,导致在训练周期不断增大的情况下算法性能下降。

在基于并行任务分配调度机制的决策方法中,根据调度策略在执行过程中是否可以变化,基于并行任务分配调度机制的决策方法可分为基于静态分配调度方法的决策方法和基于动态分配调度方法的决策方法。基于静态分配调度方法的决策方法无法对系统中实时产生的任务实现较好的调度和负载均衡。基于动态分配调度算法的决策方法可在系统运行阶段接受新的任务,将任务分配给相应的处理机并对处理机上的任务进行动态调整,该动态调整过程即为从自适应策略空间中决策产生最优自适应策略的过程,该过程决策出一个使系统中各处理机上的负载达到均衡状态的最优自适应策略。在自适应策略空间较为巨大的情况下,基于动态分配调度算法的决策方法在决策产生最优自适应策略时耗时较长,效率较低。

授权公告号为CN104778507B、名称为“一种基于自适应粒子群算法的楼宇智能用电策略获取方法”的中国专利,公开了一种基于自适应粒子群算法的楼宇智能用电策略获取方法,该方法针对拥有至少两种供电源的楼宇,首先在符合各个供电源特性要求的前提下,获取预设数量该楼宇在预设未来应用实施时间内各个时间段中的用电方法,然后根据各个用电方案进行迭代,分别获取每一次迭代过程中最低的用电成本,最后在所有迭代过程分别对应的最低用电成本中,获取最低的用电成本,该用电成本对应用电方案即为该楼宇在预设未来应用实施时间内各个时间段中的最优用电策略。该方法在供电源较多、用电方案空间巨大的情况下,算法效率十分低下;同时该算法局限于智能用电策略的获取,适用范围狭窄,并且没有考虑供电源间可能发生的冲突。

发明内容

本发明的目的在于克服上述已有技术的不足,提出了一种基于GAPSO算法的最优自适应策略决策方法,用于解决现有技术在自适应策略空间中策略数量较为巨大的情况下决策效率低的技术问题。

为实现上述目的,本发明采取的技术方案包括如下步骤:

(1)获取自适应系统的决策需求:

根据自适应系统的决策目标及自适应系统或计算机因素对决策目标的影响,获取对决策目标产生影响的因素和每个因素的取值,若每个因素的取值为非连续取值,则这些影响因素和每个因素的取值即为自适应系统的决策需求,若因素的取值为连续取值,对连续取值进行离散化,则这些影响因素和离散后的取值即为自适应系统的决策需求;

(2)建立自适应策略空间:

根据自适应系统的决策需求,利用多维表结构中的各个维度分别表示对决策目标产生影响的不同因素,并将决策需求中每个影响因素的取值分别放入到多维表结构表示该影响因素的维度中,得到所有自适应策略,所有自适应策略构成自适应策略空间;

(3)构造适应度函数:

利用自适应系统的决策需求、决策需求中的每个因素对决策目标的影响和每个因素的调整方式,在自适应系统和决策目标的限制和约束下,构造适应度函数;

(4)利用GAPSO算法对自适应策略空间进行并行搜索:

(4a)建立存放自适应策略的中间策略空间和目标策略空间,并令中间策略空间和目标策略空间均为空;

(4b)利用适应度函数,计算自适应策略空间中不同自适应策略的适应度函数值,得到多个自适应策略的适应度函数值;

(4c)利用GA算法,从自适应策略空间中并行选择最好适应度函数值对应的自适应策略,并将这些策略加入到目标策略空间中;

(4d)利用GA算法,对步骤(4c)选择剩余的适应度函数值对应的自适应策略并行进行交叉,得到进行交叉后的自适应策略;

(4e)利用GA算法,对交叉后的自适应策略并行进行变异,并将变异后的自适应策略加入到中间策略空间中;

(4f)利用PSO算法,对中间策略空间中的自适应策略并行进行更新,并将并行更新后的自适应策略加入到目标策略空间中,得到包含更新后的自适应策略的目标策略空间;

(5)获取最优自适应策略:

(5a)确定最优自适应策略决策的终止阈值:

重复执行步骤(4),得到多个目标策略空间,并利用适应度函数计算多个目标策略空间中所有自适应策略的适应度函数值,然后将满足决策目标及限制和约束条件的适应度函数值作为最优自适应策略决策终止时的适应度值阈值,同时将满足决策目标及限制和约束条件的迭代次数值作为最优自适应策略决策终止时的迭代次数阈值;

(5b)判断最优自适应策略决策过程是否结束:

若目标策略空间的迭代次数达到迭代次数阈值或目标策略空间中存在一个策略其适应度值达到适应度值阈值,最优自适应策略决策过程结束,目标策略空间中适应度值最优的策略即为最优自适应策略;否则,重复执行步骤(4)至步骤(5)。

本发明与现有技术相比,具有如下优点:

第一,本发明使用GA算法对自适应策略空间并行进行计算得到中间策略空间,然后使用GA算法和PSO算法对中间策略空间并行进行计算得到目标策略空间,并从目标策略空间中决策得到最优自适应策略,该决策过程使用了并行任务分配调度机制、GA算法和PSO算法,在策略空间十分巨大时,降低了决策过程需要的时间,有效地提高了决策的效率,使自适应系统能够迅速对变化做出响应,满足了自适应系统需要迅速对变化做出调整以保证软件正常运行的需求。

第二,本发明在GA算法之前计算了自适应策略空间中每一个自适应策略的适应度函数值,根据适应度函数值从自适应策略空间中选择最优适应度函数值对应的自适应策略进入到目标策略空间,在迭代过程中,也是根据适应度函数值从中间策略空间中选择最优适应度函数值对应的自适应策略进入到目标策略空间,有效避免了自适应系统中多个变化同时发生的情况下,多个变化的自适应策略相互冲突的情况,可有效解决多个变化同时发生时自适应策略的决策问题,为变化的调整提供策略支撑。

第三,本发明可被应用在多个领域中,适用范围广。

第四,本发明可使用迭代次数阈值或适应度值阈值作为最优自适应策略决策过程的结束条件,与使用单个结束条件相比,使用两种结束条件的方式更加灵活,得到的最优自适应策略也更能满足自适应系统的需求。

附图说明

图1为本发明的实现流程图。

具体实施方式

以下结合附图和具体实施例,对本发明作进一步详细说明:

参照图1、基于GAPSO算法的最优自适应策略决策方法,包括如下步骤:

步骤1、获取自适应系统的决策需求:

根据自适应系统的决策目标及自适应系统或计算机因素对决策目标的影响,获取对决策目标产生影响的因素和每个因素的取值,若每个因素的取值为非连续取值,则这些影响因素和每个因素的取值即为自适应系统的决策需求,若因素的取值为连续取值,对连续取值进行离散化,则这些影响因素和离散后的取值即为自适应系统的决策需求,并对决策需求进行存储,可使用XML、Excel和文本文档TXT三种格式中的任何一种格式存储决策需求,本实例使用文本文档TXT存储决策需求。

步骤2、建立自适应策略空间:

根据自适应系统的决策需求,利用多维表结构中的各个维度分别表示对决策目标产生影响的不同因素,并将决策需求中每个影响因素的取值分别放入到多维表结构表示该影响因素的维度中,得到所有自适应策略,所有自适应策略构成自适应策略空间;

步骤3、构造适应度函数:

利用自适应系统的决策需求、决策需求中的每个因素对决策目标的影响和每个因素的调整方式,在自适应系统和决策目标的限制和约束下,构造适应度函数;本实例使用将自适应策略各个维度上的取值直接相加的和函数作为适应度函数。

步骤4、利用GAPSO算法对自适应策略空间进行并行搜索:

步骤4a)建立由自适应策略构成的中间策略空间和目标策略空间,中间策略空间存储由GA算法的交叉和变异产生的自适应策略,目标策略空间存储经GA算法的选择和PSO算法的更新产生的自适应策略。每一代迭代开始时,令中间策略空间和目标策略空间均为空;

步骤4b)利用适应度函数,计算自适应策略空间中不同自适应策略的适应度函数值,得到多个自适应策略的适应度函数值;

步骤4c)利用GA算法,根据自适应策略空间中自适应策略的适应度函数的值,从自适应策略空间中按照选择概率并行选择最好适应度函数值对应的自适应策略,并将这些策略加入到目标策略空间中;

步骤4d)利用GA算法,根据交叉概率,从步骤(4c)选择剩余的适应度函数值对应的自适应策略中并行选择出偶数个自适应策略,并在选择出的偶数个自适应策略中每两个自适应策略为一组,在每一组中的两个自适应策略中选择同一维度,将该组中的两个自适应策略在该维度上的值交换,得到两个新的自适应策略;从步骤(4c)选择剩余的适应度函数值对应的自适应策略中选择未进行交换操作的自适应策略和由交换操作产生的自适应策略组成自适应策略空间;

步骤4e)利用GA算法,根据变异概率,从执行步骤(4d)后得到的自适应策略空间中并行选择出若干个策略,再对每一个策略选择出一个维度,将该维度上的取值更改为该维度表示的因素的取值集合中与当前取值相异的值;由自适应策略空间中未进行更改的自适应策略和由更改产生的自适应策略组成中间策略空间;

步骤4f)利用PSO算法,对中间策略空间中的自适应策略并行进行更新:并将并行更新后的自适应策略加入到目标策略空间中,得到包含更新后的自适应策略的目标策略空间:

(4f1)对第t代自适应策略空间中的任一自适应策略Xid(t)进行GA算法的选择、交叉和变异,得到自适应策略Xga(t),再计算每一代的自适应策略Xid(j)、Xga(j)的适应度函数值,然后将适应度函数值中最大适应度函数值对应的自适应策略作为自适应策略Xid(t)的局部最优自适应策略Pid(t),其中,t≥1,j=1,2,...,t;

(4f2)计算第t,t≥1代自适应策略空间和中间策略空间中每一个自适应策略的适应度函数值,然后将适应度函数值中最大适应度函数值对应的自适应策略作为第t代的全局最优自适应策略Pgd(t),若第t+1代的全局最优自适应策略Pgd(t+1)的适应度函数值劣于Pgd(t)的适应度函数值,则将Pgd(t)赋值给Pgd(t+1),否则,Pgd(t+1)保持不变;

(4f3)计算第t代中间策略空间中自适应策略Xi'd(t)的策略更新步长Vid(t),计算公式如下:

Vid(t)=w×Vid(t-1)+c1×r1×(Pi'd(t-1)-Xi'd(t-1))+c2×r2×(Pgd(t-1)-Xi'd(t-1))

其中,t≥2,w为惯性因子,取值范围为[0,1];c1、c2为加速因子,是正常数;r1、r2为随机数,取值位于区间[0,1]内,Pi'd(t)是Xi'd(t)局部最优自适应策略;

(4f4)计算第t+1代中由自适应策略Xid(t)产生的自适应策略Xid(t+1),计算公式为:

Xid(t+1)=Xid(t)+Vid(t+1)

该公式使用自适应策略Xid(t)和自适应策略Xid(t)的策略更新步长Vid(t+1)计算得到自适应策略Xid(t+1),使自适应策略逐渐靠近最优自适应策略;其中,Vid(t+1)为第t+1代自适应策略Xi'd(t+1)的策略更新步长,计算公式为:

Vid(t+1)=w×Vid(t)+c1×r1×(Pid(t)-Xid(t))+c2×r2×(Pgd(t)-Xid(t))

该公式综合使用了自适应策略Xid(t),自适应策略Xid(t)的策略修改步长Vid(t)、局部最优策略Pid(t)和全局最优策略Pgd(t)计算策略修改步长Vid(t+1),使自适应策略沿着朝向最优自适应策略的方向前进,其中,t≥1,w为惯性因子,取值范围为[0,1];c1、c2为加速因子,是正常数;r1、r2为随机数,取值位于区间[0,1]内。

(5)获取最优自适应策略:

(5a)确定最优自适应策略决策的终止阈值:

重复执行步骤(4),得到多个目标策略空间,并利用适应度函数计算多个目标策略空间中所有自适应策略的适应度函数值,然后将满足决策目标及限制和约束条件的适应度函数值作为最优自适应策略决策终止时的适应度值阈值,同时将满足决策目标及限制和约束条件的迭代次数值作为最优自适应策略决策终止时的迭代次数阈值;这里采用迭代次数作为最优自适应策略决策终止条件;

(5b)判断最优自适应策略决策过程是否结束:

若目标策略空间的迭代次数达到迭代次数阈值或目标策略空间中存在一个策略其适应度值达到适应度值阈值,最优自适应策略决策过程结束,目标策略空间中适应度值最优的策略即为最优自适应策略;否则,重复执行步骤(4)至步骤(5)。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号