首页> 中国专利> 一种基于局域最大最小概率机的无线网络流量预测方法

一种基于局域最大最小概率机的无线网络流量预测方法

摘要

本发明提供了一种基于局域最大最小概率机的无线网络流量预测方法,用互信息量算法计算时间序列的时间延迟,用Cao氏法计算时间序列的嵌入维数,用延迟坐标状态相空间重构法对时间序列进行相空间重构,得到相空间,用AICi信息准则计算相空间的邻近点个数,用基于KD-Tree的邻近点选择算法构造邻近点集合,用Ki策略从邻近点集合中剔除伪邻近点,得到经过裁剪的邻近点集合,用于构造最大最小概率机的训练特征集,调整最大最小概率机的参数,训练模型,得到预测值,实现了基于最大最小概率机预测模型的局域化,能够更准确、更及时地进行无线网络流量预测。

著录项

  • 公开/公告号CN102685766A

    专利类型发明专利

  • 公开/公告日2012-09-19

    原文格式PDF

  • 申请/专利权人 西华大学;

    申请/专利号CN201210145940.0

  • 申请日2012-05-13

  • 分类号H04W16/22(20090101);

  • 代理机构

  • 代理人

  • 地址 610039 四川省成都市金牛区土桥金周路999号

  • 入库时间 2023-12-18 06:33:08

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-04-30

    未缴年费专利权终止 IPC(主分类):H04L12/801 授权公告日:20141112 终止日期:20180513 申请日:20120513

    专利权的终止

  • 2014-11-12

    授权

    授权

  • 2012-11-14

    实质审查的生效 IPC(主分类):H04W16/22 申请日:20120513

    实质审查的生效

  • 2012-09-19

    公开

    公开

说明书

技术领域

本发明涉及无线网络领域,特别是涉及一种无线网络流量的预测方法。

背景技术

近年来随着无线网络技术应用的不断推广,安全问题已成为无线局域网发展中遇到的最为关键的问题之一,除了基于密钥管理和认证实现的访问控制技术之外,网络流量预测和异常检测逐渐成为解决上述难题的重要手段。同时网络流量的分析与预测对于网络规划和网络资源管理都具有重要的意义。

预测是根据某个事物当前的发展势态及规律对将来的状态做出分析并预告,它包含采集历史数据并用某种数学模型来求解和外推未来的数据。网络流量预测的方法一直伴随着时间序列分析方法(Time Series Analysis,TSA)的发展而层出不穷,这些方法可以分为两大类:经典方法和智能方法(Intelligent Algorithms)。经典方法主要包括AR模型(Auto-Regressive),MA模型(Moving Average),ARMA模型(Auto-Regressive and Moving Average),ARIMA模型(Auto-Regressive Integrated Moving Average),ARFIMA模型(Auto-Regressive Fractionally Integrated Moving Average)以及贝叶斯模型(Bayesian)和卡尔曼滤波模型(Karlman Filtering)等,这些经典预测方法主要用于解决有线网络流量的预测问题。与有线网络比较,无线网络流量具有突发性强、规律性差的特点,因此将上述经典方法应用于无线网络时,会产生较大的预测误差。近年来出现了采用智能算法的无线网络流量预测方法,主要包括小波分析(Wavelet Analysis), 人工神经网络(Artificial Neural Networks,ANN),支持向量机(Support Vector Machine,SVM)和基于混沌理论的局域支持向量机(Local SVM based on Chaos Theory,LSVM),以及最大最小概率机(Minimax Probability Machine Regression,MPMR)等。

LSVM方法的核心思想是从输入SVM的数据集中找出一些特征点来构造一个邻近点集合NNPS(Nearest Neighbor Points Set),然后将NNPS作为输入SVM的训练集对SVM进行训练,该方法可以有效提高无线网络流量的预测精度。LSVM方法在构造NNPS时,需要计算欧氏距离来度量两点之间的相似性,其主要优点是简单、直观。但是欧氏距离在度量相似性方面存在缺陷:即使两个非常相似的向量在时间轴上的轻微移动也可能造成二者之间的欧氏距离变得非常大。作为LSVM方法的改进,LSVM-DTW-K方法采用动态时间折叠算法(Dynamic Time Wrapping,DTW)来替代基于欧氏距离的相似度计算方法,可以忽略向量之间在时间轴上的全局或局部移动。为进一步消除在构造NNPS时可能产生的一些伪邻近点对预测精度的影响,该方法采用K策略从NNPS中剔除了一些DTW距离相对较大的点。实验证明,LSVM-DTW-K方法可以显著提高无线网络流量的预测精度。不足之处:在确定NNPS的个数和K策略中需要剔除多少个伪邻近点时,该方法主要依靠人工经验,缺乏科学依据和必要的计算;另外DTW算法的时间复杂度也明显高于基于欧氏距离的相似度计算方法。为进一步提高无线网络流量的预测精度和实时计算能力,LSVM-HQ-SAX-DTW-K方法主要进行了如下改进:采用HQ信息准则(Hannan-Quinn Information Criterion,HQ)计算出NNPS的个数;同时在进行DTW相似度计算之前采用SAX算法(Symbolic Aggregate Approximation,SAX)对时间序列进行符号化处理以降低时间复杂度,实验证明了该方法的有效性。但是在采用K策略决定剔除多少个伪邻近点时,该方法主要依靠人工经验、缺乏科学依据和必要计算的问题仍然存在。

最大最小概率机MPMR是近年来一种新的用于时间序列预测的智能方法,属于全局预测方法。有关文献对基于MPMR和基于SVM的无线网络流量预测算法进行了比较,证明了前者在预测精度方面的有效性。但是,MPMR与SVM一样,在建立具有实时计算能力的预测模型时存在缺陷:其主要思想是希望利用所有的历史信息来推断未来,因此当输入数据达到一定规模时,计算量将急剧增加,训练时间将变得很长甚至超过数据采集的时间间隔,使得预测已经失去了实际意义。

发明内容

本发明所要解决的技术问题是:如何能够创新地进一步提高无线网络流量预测精度和实时计算能力,能够更准确、更及时地进行无线网络流量的预测。

为了解决上述问题,本发明公开了一种基于局域最大最小概率机的无线网络流量预测方法,其技术方案包括以下各步骤:

步骤1:用互信息量算法计算时间序列的时间延迟                                                ;

步骤2:用Cao氏法计算时间序列的嵌入维数;

步骤3:用延迟坐标状态相空间重构法对时间序列进行相空间重构,得到相空间;

步骤4:用AICi信息准则计算相空间的邻近点个数;

步骤5:用基于KD-Tree的邻近点选择算法构造邻近点集合;

步骤6:用Ki策略从邻近点集合中剔除伪邻近点,得到经过裁剪的邻近点集合;

步骤7:用经过裁减的邻近点集合构造最大最小概率机MPMR的训练特征集;

步骤8:调整最大最小概率机MPMR的参数,训练模型,得到预测值。

与现有技术相比,本发明具有以下优点:

(1)本发明通过对输入MPMR模型的数据集进行预处理(包括对时间序列进行相空间重构、用AICi信息准则和基于KD-Tree的高维邻近点选择算法构造邻近点集合NNPS以及用Ki策略剔除伪邻近点等),实现了基于MPMR预测模型的局域化,克服了基于MPMR全局预测模型的缺陷,提高了无线网络流量预测精度和实时计算能力,能够更准确、更及时地进行无线网络流量预测;

(2)本发明采用AICi信息准则来准确计算邻近点个数,解决了LSVM-DTW-K方法中确定NNPS的个数时,主要依靠人工经验、缺乏科学依据和必要计算的问题。另外与LSVM-HQ-SAX-DTW-K方法中HQ信息准则比较,AICi信息准则表现出更好的性能;

(3)高维空间下选择邻近点常用的方法是使用某种距离度量(如DTW或者欧氏距离等),但是这种方法的复杂度普遍较高,尤其是当样本数大时,效率非常低下。利用KD-Tree在邻近点存储上的特点(即空间位置相近的数据点在KD-Tree上存储的结点也相近,甚至存储在相同的节点上),本发明使用基于KD-Tree的高维邻近点选择算法来构造邻近点集合NNPS,能够在给定某空间点后迅速找到其邻居,比使用距离度量的方法表现出更好的性能;

(4)本发明采用了一种Ki策略来剔除NNPS中的伪邻近点。该策略充分考虑了样点所在曲线的方向对“邻近”所产生的影响,利用邻近点集合NNPS中的每个点与目标点的夹角余弦关系来消除伪邻近点。该策略解决了LSVM-DTW-K和LSVM-HQ-SAX-DTW-K方法中剔除多少个伪邻近点主要依靠人工经验、缺乏科学依据和必要计算的问题。

附图说明

图1为本发明的基于局域最大最小概率机的无线网络流量预测方法流程图。

具体实施方式

下面结合附图对本发明进行详细说明。

如附图1所示,本发明方法按照以下步骤进行无线网络流量的预测:

步骤1:用互信息量算法计算时间序列的时间延迟;

假设有两个由离散时间序列构成的系统和,以为例,系统的信息熵定义为,其中表示系统处于状态的概率。系统和的联合熵定义为,其中表示系统处于状态且系统处于状态的概率。两系统、的互信息可由两者的熵和联合熵得到:。接下来定义,其中代表时间序列,代表时间序列,和的时间延迟为。此时互信息是与时间延迟有关的函数,将其记为。的大小代表与的相关性,当时,与完全不相关,而的极小值则表示与最大程度的不相关。取第一次达到极小时的为最佳时间延迟。

步骤2:用Cao氏法计算时间序列的嵌入维数;

嵌入维数的计算一般有饱和嵌入维数法、伪最近邻点法和Cao氏法等。本发明采用Cao氏法确定嵌入维数。下面介绍利用Cao氏法计算嵌入维数的步骤:对于(若,则;若,则),定义,其中为维重构相空间的第个相点,为的最近邻点,为欧氏距离下的最大值范数。所有相点的平均值定义为,只依赖于嵌入维数和时间延迟。定义从变为时相空间的变化情况,当随着的增加而停止变化时,这时的就是重构相空间的最佳嵌入维数。

步骤3:用延迟坐标状态相空间重构法对时间序列进行相空间重构,得到相空间;

相关文献已经证明无线网络流量具有混沌特性。相空间重构的目的在于在高维相空间中恢复混沌吸引子(混沌吸引子作为混沌系统的特征之一,体现着混沌系统的规律性,它意味着混沌系统最终会落入某一特定的轨迹之中,这种特定的轨迹就是混沌吸引子)。在确定性的基础上,对序列动力学因素的分析,目前广泛采用的是延迟坐标状态相空间重构法。假设有时间序列,时间延迟为,嵌入维数为,则重构点时间序列后的轨迹为:,其中当时,;当时,,为重构相空间后的相点数。由重构后的轨迹可见,当时间序列被映射到高维空间后,呈现出一种有规律的结构。

步骤4:用AICi信息准则计算相空间的邻近点个数;

目前可用于邻近点计算的方法主要有:AIC信息准则(Akaike information criterion,AIC),BIC信息准则(Bayesian information criterion,BIC),HQ信息准则以及AICi信息准则。本发明采用AICi信息准则(An Improved Variant of the Akaike Information Criterion,AICi)。下面介绍基于AICi信息准则的邻近点个数计算方法:(1)假设有时间序列,将重构后的相空间分为两部分,每个行向量称为一段数据;(2)对第二部分的每段数据进行预测,预测步长设置为,若为单步预测则。同时,用归一化均方误差来表征模型的短期可预测性能,其定义如下:

,其中是第二部分数据行向量的个数,为时间序列的样本总数,表示时间序列的均值,为每段数据的起始数据的序号,是利用线性映射得到的点的预测值,映射关系定义为:,其中为预测步长(注意与前面定义的预测步长的区分),为维行向量,为常数;(3)通过对进行极小化处理可以得到邻近点个数,其中表示关于的一元二次方程,即上一步所求得的值,为常数,是嵌入维数,表示拟合数据个数。

步骤5:用基于KD-Tree的邻近点选择算法构造邻近点集合;

邻近点的个数确定后,接下来就是根据邻近点个数选取邻近点集合。高维空间下选择邻近点的常用方法是使用某种度量距离来衡量如DTW或者欧氏距离等,但是这种方法的计算复杂度普遍较高,尤其是当样本数大时,效率非常低下。本发明使用一种基于KD-Tree的高维邻近点选择算法。KD-Tree是一种根据维空间中的点集对空间进行分割的数据结构,它与二元搜索树不同,每个树结点表示维空间的一个点,并且每一层都根据该层的分辨器对相应对象做出分枝决策和进行递归划分,直至一个树结点中表示的空间点数少于给定的最大点数时,结束划分。KD-Tree的优点在于空间位置相近的数据点在KD-Tree上存储的结点也相近,甚至存储在相同的节点上,因此在给定某空间点后可以迅速找到其邻居。下面介绍求解步骤:该算法首先对重构相空间后的样本点构造KD-Tree,然后利用搜索算法在KD-Tree中搜索与目标点最邻近的个点。

步骤6:用Ki策略从邻近点集合中剔除伪邻近点,得到经过裁剪的邻近点集合;

Ki策略策略是LSVM-DTW-K和LSVM-HQ-SAX-DTW-K方法中所采用的K策略的改进算法,充分考虑了样点所在曲线的方向对“邻近”所产生的影响,它利用中的每个点与目标点的夹角余弦关系,来消除伪邻近点。夹角余弦的范围设定为[-1,1],夹角余弦值越大,说明两个点越邻近。Ki策略的步骤如下:首先是计算中每个点与目标点的夹角余弦,记为;然后设定阈值,例如;如果满足条件,则该点从邻近点集合中剔除,直到剔除所有伪邻近点为止,得到经过裁剪的邻近点集合。

步骤7:用经过裁减的邻近点集合构造最大最小概率机MPMR的训练特征集;

利用再加上训练目标值即可构造训练特征集,训练特征集包括及其对应的目标值。

步骤8:调整最大最小概率机MPMR的参数,训练模型,得到预测值。

最大最小概率机MPMR的参数主要有核函数及核函数的参数。核函数的类型主要有线性核、多项式核和径向基函数。径向基函数是非线性核,能够解决线性不可分问题。线性核是径向基函数核的一个特例。多项式核一般需要较多的参数,而径向基函数核的参数相对较少。本发明采用径向基函数核,其主要的参数有两个:参数和。参数对预测结果有较大影响,当很小时,预测结果误差大;随着值增大,预测准确的点增多,但误差值变大,即准确点较准,不准确点误差很大。经过测试,当的取值大于100时,预测误差基本保持稳定。在MPMR模型中,训练数据集一般通过加减值来构造二分类,当取值很小时,两类数据的大量数据点重合,可用于分类的有效信息点较少,容易导致拟合曲线不准确;当取值很大时,两类数据距离较远,计算时考虑了过多的无效或错误数据点,拟合和预测效果会受到严重影响。经过测试,当取值为1时,效果最佳。MPMR的参数调整完后,将训练特征集输入MPMR训练模型,得到拟合模型。最后将预测集输入拟合模型,得到预测值。 

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号