首页> 中国专利> 环境传感器的采集数据流中连续异常检测的抽样GPR方法

环境传感器的采集数据流中连续异常检测的抽样GPR方法

摘要

环境传感器的采集数据流中连续异常检测的抽样GPR方法,属于环境传感器的数据监测技术领域。本发明是为了解决传统的环境传感器数据流异常检测中由于数据计算量大,不能实时的进行异常检测的问题。它基于预测模型的方法,通过历史数据建立预测模型,得到当前数据的均值和置信区间,将当前数据值与置信区间比较,如果超出区间,则认为其为异常数据,这种方法只需要较少的历史数据,算法执行效率增加,且输入的训练数据不要求具有分类标签,能够根据实时到达的数据自适应地检测异常情况,适应于环境传感器的实时异常检测要求。本发明用于环境传感器的采集数据流中连续异常数据检测。

著录项

  • 公开/公告号CN103336906A

    专利类型发明专利

  • 公开/公告日2013-10-02

    原文格式PDF

  • 申请/专利权人 哈尔滨工业大学;

    申请/专利号CN201310295975.7

  • 申请日2013-07-15

  • 分类号G06F19/00(20110101);

  • 代理机构23109 哈尔滨市松花江专利商标事务所;

  • 代理人张宏威

  • 地址 150001 黑龙江省哈尔滨市南岗区西大直街92号

  • 入库时间 2024-02-19 20:16:50

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-04-14

    专利权的转移 IPC(主分类):G06F19/00 登记生效日:20200326 变更前: 变更后: 申请日:20130715

    专利申请权、专利权的转移

  • 2016-03-16

    授权

    授权

  • 2013-11-06

    实质审查的生效 IPC(主分类):G06F19/00 申请日:20130715

    实质审查的生效

  • 2013-10-02

    公开

    公开

说明书

技术领域

本发明涉及环境传感器的采集数据流中连续异常检测的抽样GPR方法,属于环境传感器的数据监测技术领域。

背景技术

环境传感器的广泛应用对数据的实时分析提出了更高的要求,环境传感器分布在其所监测的环境中,采集的数据通过遥测技术以时间序列的形式持续产生数据库,此种持续产生的数据形式为数据流模型。目前,环境传感器数据的实时应用已经得到广泛关注,但是由于环境传感器一般应用于比较恶劣的环境中,其数据通过通信网络进行传输,数据传输过程中会受到环境的影响,很容易被腐蚀,而未检测的错误将对数据值的实时分析产生较大影响。因此NSF(National Science Foundation)已经对数据质量的自我完善与控制提出了明确的要求。

异常检测就是用于鉴别与历史模型有很大偏离的数据模式。在环境传感器中异常数据的产生分两个方面,即由传感器本身引起的和数据传输中的错误或者较少出现的系统异常行为引起的。这些异常数据需要进行清除,以便于避免系统灾难的发生。环境传感器中对异常检测的要求大多是实时的,因此异常检测方法必须是快速地检测,以保证数据实时采集的要求。

传统的异常检测利用数据的图形化工具来手动识别数据中的异常,但是手动的方法在数据流的应用中不能满足实时性要求,因为手动的方式难以持续每周七天,每天24小时的强度。最近,研究者对统计与机器学习的方法进行了研究,例如minimum volumeellipsoid,convex pealing,近邻聚类,神经网络分类器,支持向量机分类器和决策树等,这些方法的效率优于手动方法,但是这些方法的缺点使得其不适用于实时的数据流异常检测。minimum volume ellipsoid和convex pealing方法要求必须将所有数据存储后再进行异常检测;而近邻聚类、支持向量机的方法对于大规模数据,其计算量非常大;而神经网络分类器、支持向量机分类器以及决策树要求是有监督的学习方式。由于环境传感器实时持续的收集数据,作用于整个数据集的方法将失效。

发明内容

本发明目的是为了解决传统的环境传感器数据流异常检测中由于数据计算量大,不能实时的进行异常检测的问题,提供了一种环境传感器的采集数据流中连续异常检测的抽样GPR方法。

本发明所述环境传感器的采集数据流中连续异常检测的抽样GPR方法,它包括以下步骤:

步骤一:设定环境传感器传感数据的滑动窗口尺寸为N,并设定抽样比为B:1,将滑动窗口中数据流前N*B个数据作为离线数据进行抽样,获得的N*B个数据作为初始的预测窗口数据,并根据初始的预测窗口数据形成预测窗口DT

步骤二:将环境传感器传感数据流中与当前时刻相邻的下一时刻数据元素索引作为预测窗口DT的输入值,预测窗口DT输出环境传感器传感数据流中下一时刻数据元素的预测均值,并获得与该预测均值对应的方差;

步骤三:根据预测窗口DT输出的下一时刻数据元素的预测均值和对应的方差确定所述下一时刻数据元素正常时应落入的95%的置信区间;

步骤四:当所述下一时刻数据元素到达时,将其与所述置信区间确定的范围进行比较,若超出置信区间确定的范围,则视该数据元素为异常数据,存储该异常数据及其索引,并返回步骤二;否则执行步骤五;

步骤五:利用UBCS算法确定所述下一时刻数据元素是否加入预测窗口DT,若加入,则将该下一时刻数据元素存储在预测窗口DT内,并删除预测窗口DT内最小索引对应的数据元素,完成预测窗口DT的更新,再返回步骤二循环执行直至传感数据流结束,然后执行步骤六;否则直接返回步骤二循环执行直至传感数据流结束,然后执行步骤六;

步骤六:输出步骤四中判断获得的所有异常数据,实现环境传感器的采集数据流中连续异常数据的检测。

所述预测窗口DT={xi-Q,xi-Q+1,...,xi},其中i表示当前时刻,Q为预测窗口DT的尺寸,且Q=N*B,x为与其下标对应时刻的预测窗口数据;

将下一时刻数据元素xi+1的索引作为预测窗口DT的输入值,获得数据元素xi+1的预测均值及与该预测均值对应的方差q;

确定下一时刻数据元素的95%的置信区间为

步骤五中所述利用UBCS算法确定所述下一时刻数据元素是否加入预测窗口DT的具体方法为:

步骤五一:根据环境传感器传感数据的滑动窗口尺寸N,设定其采样尺寸为k,则每个基本窗口尺寸为N/k,N/k的比值为向下取整的比值,则第一个基本窗口中的数据元素索引为[1,2,3,...,N/k],第二个基本窗口中的数据元素索引为[N/k+1,N/k+2,...,2*N/k],……,第I个基本窗口中的数据元素索引为[(I-1)*N/k+1,...,I*N/k];

步骤五二:从预测窗口DT中随机选择下一个数据元素索引作为代表索引;

步骤五三:当所述代表索引对应的数据元素到达时,将该数据元素作为均匀抽样数据流的采样样本数据加入预测窗口DT,直至当前第一个基本窗口的代表索引与当前时刻对应的当前基本窗口的代表索引的差大于窗口尺寸N时,删除当前第一个基本窗口的代表索引对应的元素;同时当环境传感器传感数据流的采样样本数据的个数大于采样尺寸k时,从均匀抽样数据流的采样样本数据中随机删除一个采样样本数据。

所述步骤五一中环境传感器传感数据的滑动窗口尺寸N为6,采样尺寸k为2,则每个基本窗口尺寸N/k为3,则第一个基本窗口中的元素索引为[1,2,3],第二个基本窗口中的元素索引为[4,5,6],……。

所述步骤五二中选取的下一个数据元素的代表索引为2。

所述步骤五三中当下一个数据元素的代表索引为2对应的数据元素到达时,将该数据元素作为均匀抽样数据流的采样样本数据加入预测窗口DT

本发明的优点:本发明方法基于预测模型的方法,通过历史数据建立预测模型,得到当前数据的均值和置信区间,将当前数据值与置信区间比较,如果超出区间,则认为其为异常数据,这种方法只需要较少的历史数据,算法执行效率增加,且输入的训练数据不要求具有分类标签,能够根据实时到达的数据自适应地检测异常情况,适应于环境传感器的实时异常检测要求。本发明方法引入GPR预测模型,建立基于时间序列的预测框架,有效地利用了GPR输出具有不确定性表达的特性,同时引入了抽样GPR方法,有效地结合了通过训练子集进行原始数据建模的思想,并通过仿真数据集验证了抽样GPR方法对于数据流连续异常的检测有效性。

附图说明

图1是本发明所述环境传感器的采集数据流中连续异常检测的抽样GPR方法的流程图;

图2是GPR预测模型的流程图;

图3是本发明方法中仿真验证的原始数据流曲线图;

图4是UBCS算法的执行实例示意图;图中A处箭头表示新数据到达的方向,该数据右侧的数字表示元素索引,采样样本数据内的数字表示代表索引,D表示数据过期删除,C表示抽样样本数大于采样样本尺寸删除;

图5是UBCS算法的流程图。

具体实施方式

具体实施方式一:下面结合图1说明本实施方式,本实施方式所述环境传感器的采集数据流中连续异常检测的抽样GPR方法,它包括以下步骤:

步骤一:设定环境传感器传感数据的滑动窗口尺寸为N,并设定抽样比为B:1,将滑动窗口中数据流前N*B个数据作为离线数据进行抽样,获得的N*B个数据作为初始的预测窗口数据,并根据初始的预测窗口数据形成预测窗口DT

步骤二:将环境传感器传感数据流中与当前时刻相邻的下一时刻数据元素索引作为预测窗口DT的输入值,预测窗口DT输出环境传感器传感数据流中下一时刻数据元素的预测均值,并获得与该预测均值对应的方差;

步骤三:根据预测窗口DT输出的下一时刻数据元素的预测均值和对应的方差确定所述下一时刻数据元素正常时应落入的95%的置信区间;

步骤四:当所述下一时刻数据元素到达时,将其与所述置信区间确定的范围进行比较,若超出置信区间确定的范围,则视该数据元素为异常数据,存储该异常数据及其索引,并返回步骤二;否则执行步骤五;

步骤五:利用UBCS算法确定所述下一时刻数据元素是否加入预测窗口DT,若加入,则将该下一时刻数据元素存储在预测窗口DT内,并删除预测窗口DT内最小索引对应的数据元素,完成预测窗口DT的更新,再返回步骤二循环执行直至传感数据流结束,然后执行步骤六;否则直接返回步骤二循环执行直至传感数据流结束,然后执行步骤六;

步骤六:输出步骤四中判断获得的所有异常数据,实现环境传感器的采集数据流中连续异常数据的检测。

具体实施方式二:本实施方式对实施方式一作进一步说明,本实施方式所述预测窗口DT={xi-Q,xi-Q+1,...,xi},其中i表示当前时刻,Q为预测窗口DT的尺寸,且Q=N*B,x为与其下标对应时刻的预测窗口数据;

将下一时刻数据元素xi+1的索引作为预测窗口DT的输入值,获得数据元素xi+1的预测均值及与该预测均值对应的方差q;

确定下一时刻数据元素的95%的置信区间为

具体实施方式三:下面结合图5说明本实施方式,本实施方式对实施方式二作进一步说明,本实施方式步骤五中所述利用UBCS算法确定所述下一时刻数据元素是否加入预测窗口DT的具体方法为:

步骤五一:根据环境传感器传感数据的滑动窗口尺寸N,设定其采样尺寸为k,则每个基本窗口尺寸为N/k,N/k的比值为向下取整的比值,则第一个基本窗口中的数据元素索引为[1,2,3,...,N/k],第二个基本窗口中的数据元素索引为[N/k+1,N/k+2,...,2*N/k],……,第I个基本窗口中的数据元素索引为[(I-1)*N/k+1,...,I*N/k];

步骤五二:从预测窗口DT中随机选择下一个数据元素索引作为代表索引;

步骤五三:当所述代表索引对应的数据元素到达时,将该数据元素作为均匀抽样数据流的采样样本数据加入预测窗口DT,直至当前第一个基本窗口的代表索引与当前时刻对应的当前基本窗口的代表索引的差大于窗口尺寸N时,删除当前第一个基本窗口的代表索引对应的元素;同时当环境传感器传感数据流的采样样本数据的个数大于采样尺寸k时,从均匀抽样数据流的采样样本数据中随机删除一个采样样本数据。

具体实施方式四:本实施方式对实施方式三作进一步说明,本实施方式所述步骤五一中环境传感器传感数据的滑动窗口尺寸N为6,采样尺寸k为2,则每个基本窗口尺寸N/k为3,则第一个基本窗口中的元素索引为[1,2,3],第二个基本窗口中的元素索引为[4,5,6],……。

具体实施方式五:下面结合图4说明本实施方式,本实施方式对实施方式四作进一步说明,本实施方式所述步骤五二中选取的下一个数据元素的代表索引为2。

具体实施方式六:下面结合图1至图5说明本实施方式,本实施方式对实施方式五作进一步说明,本实施方式所述步骤五三中当下一个数据元素的代表索引为2对应的数据元素到达时,将该数据元素作为均匀抽样数据流的采样样本数据加入预测窗口DT

本发明方法中涉及的GPR预测方法:

1、高斯过程回归预测原理:

高斯过程回归模型GPR是一种用于非线性回归问题的概率技术,即通过可用的训练数据限制先验分布来完成对后验分布的估计。即通过GP的先验分布进行定义的泛函空间,GP的后验分布的函数预测输出值可以利用贝叶斯框架计算得到。如,训练数据集合是由N'个训练数据对组成的,其中xi1为训练数据输入值,yi1为训练数据目标值,i1为训练数据的下标,相应的输入数据的矩阵X∈Rd×N′是由训练数据构成,而预测数据矩阵是由N*个测试输入组成的,d为输入数据的维度,R表示为实数。此时预测输出向量为利用m与m*分别用于表示训练数据、测试数据集对应的均值向量。则预测输出f*与训练数据的目标值y服从联合高斯分布,即

>yf*~(mm*,C(X,X)K(X,X*)K(X*,X)K(X*,X*))---(1)>

上式中,C(X,X)=K(X,X)+δijI为训练数据的协方差矩阵,即将训练数据代入协方差函数的具体形式中获得的矩阵,其为N×N维,其中δij为设定的白噪声的方差,I为N×N的单位阵;K(X,X*)为测试数据与训练数据的协方差向量,即将每个测试数据与训练数据代入协方差函数的具体表达式中获得,为N×N*维;K(X*,X)为K(X,X*)的转置,即K(X*,X)=K(X*,X)T;K(X*,X*)为测试数据本身的协方差矩阵,即将测试数据代入后获得的N*×N*维的矩阵;m为测试数据的输入矩阵X代入具体的均值函数表达式后得到的1×N维的列向量,而m*是将测试输入X*代入同样的均值函数表达式后得到的1×N*的测试均值向量。

上式可以用于预测目标输出y*的主要依据是高斯过程的性质如下所示:若x与t服从联合高斯分布的随机向量,即

>xt~(mxmt,AEETB)---(2)>

则x的边缘分布如式(3)所示,在t已知的条件下x的条件分布如式(3)所示:

x~N(mx,A),

x|t~N(mx+EB-1(t-mt),A-EB-1ET)         (3)

同样,A,E,B表示协方差矩阵,符号T表示矩阵或向量的转置。

由以上高斯过程的性质并结合(1)式即可方便地得到f*所满足的后验条件分布:

>f*|X,y,X*~N(f*,cov(f*)),---4(a)>

>f*=E[f*|X,y,X*]=m*+K(X*,X)C(X,X)-1(y-m),---4(b)>

cov(f*)=K(X*,X*)-K(X*,X)C(X,X)-1K(X,X*)       4(c)

其中,由(4b)、(4c)式可知通过GPR预测的输出y*服从均值和方差的高斯分布,即

>f(x*)=m(x*)+k*TC-1(y-m(x))---(5)>

>σf2(x*)=k(X*,X*)-k*TC-1k*---(6)>

上式中,C-1=C(X,X)-1,y为训练数据的观测值。GP模型预测输出值的置信区间由(10)式中的确定,如95%的置信区间为99%的置信区间为表明GPR模型用于预测问题时不仅能够预测测试输出的均值而且可以给出预测模型的置信水平或不确定性。这在实际的应用中可以更好地融合外界、测试值以及模型的噪声,给出更具可靠性的预测结果。

例如,一元线性回归预测问题是通过给定新的预测输入代入明确的表达式后得到的输出值。而对于GPR,式(1)就是用于预测的函数表达式,只不过与一般的回归问题不同,f(x)是不能够用参数或者非参数的形式表示出来的,而已知的就是f(x)是一个高斯过程,其中的各个变量f(x1),...,f(xN')服从联合高斯分布,所以得到的预测模型就是y~GP(m(x),k(x,x*)+σ2δij),将每一个训练点带入得到矩阵C(X,X)=K(X,X)+σ2Q,所以预测模型写成矩阵的形式如下:

y~(M(X),K(X,X)+σ2Q)           (7)

这里可以理解为y与x之间的关系,相当于一元线性回归中的y=ax+b。其中m(x)与k(x,x*)+σ2δij都含有未知的参数,统称为超参数,如m(x)=a+bx,>k(x,x*)+σ2δij=υ0exp{-12Σl=1dωl(xi-xj)2}+σ2δij,>超参数为Θ=[a,b,υ0ln]这些超参数与一元线性回归中的a,b作用相同,需要利用训练数据来确定。

2、GPR的预测步骤

通过以上表述,对GP模型以及GPR的预测原理进行了介绍,此处重点关注GPR模型应用于预测问题时的具体执行步骤,参照常规的预测模型的预测步骤进行介绍,GPR模型用于训练和预测的框图如图2所示。

具体的高斯过程预测步骤:

第一步:进行预测前的因素分析。即对变量之间的相关关系进行判断,确定用于预测的训练输入与训练输出。

第二步:收集第一步确定的自变量与因变量的训练数据对{x,y},建立回归预测模型。如训练数据集{x,y},y=t(x)|x=1,2,...,100,x是时间序列中的时间编号,y是对应于每个时间编号的训练数据的目标函数值。建立的高斯过程模型为y~GP(m(x),k(x,x*)+σ2δij),假设m(x)=a+bx,>k(x,x)+σn2δij=k(x,x*)+σ2δij=υ0exp{-12Σl=1dωl(xi-xj)2}+σ2δij,>均值函数的形式和协方差函数的形式可以自由选择,只要保证协方差矩阵为非负定的形式即可,此时均值函数和协方差函数中含有未知的参数,即超参数Θ=[a,b,υ0ln]。

第三步:优化参数值Θ=[a,b,υ0ln],此处使用的是贝叶斯框架,其是基于证据最大化的理论,即超参数可通过对下式所示的对数似然函数的极大化进行确定,即

>θopt=argmaxθ{log(y|X,θ)}=argmaxθ{-12log(det(K+σn2))>

>-12(y-m)T[K+σn2]-1(y-m)-N2log2π>

其中,det是行列式符号。首先将超参数初始化为随机值,一般训练数据都是经过归一化的数据,超参数的初始化可设为服从均值为0,方差为1的正态分布的随机值。为了获得上式中超参数向量的最优值θopt,采用对负对数似然函数关于θ的梯度进行求取的方式,即

>θklogp(y|X,θ)=12(y-m)TC-1CθkC-1(y-m)-12tr(C-1Cθk),>

>θmlogp(y|X,θ)=-(y-m)TC-1mθm>

其中,符号tr为矩阵的迹操作,θm表示均值函数中涉及到的超参数,而θk是协方差函数(包含噪声的方差)包含的超参数。利用共轭梯度法搜索得到上式最接近于0的参数值即为最优的超参数值。此时确定的预测模型即为最优的预测模型。

第四步:利用已建立的回归模型得到预测输出。在传统的回归预测方法只需将预测输入x*的值代入模型中即可得到输出值,GPR用于预测问题时也可以这样理解,根据前面的叙述,测试数据的观测输出与训练数据的观测输出值将服从联合高斯分布,如式(1)所示。

所以将预测输入和训练数据代入后右侧就已经完全已知,根据前面的定理,得到预测输出y*的均值和方差如式(5),(6)所示。从而得到了具有均值和不确定性表达的GPR模型预测输出。

3、抽样GPR方法:

环境传感器中由孤立点引起的点异常,在实际应用中往往是由传感器采集过程中噪声的引入或者操作不当引起的,检测出来后可以根据专家经验对其进行修正,主要应用于数据的预处理,用户更关注的是数据流中的连续异常情况。

针对于环境数据流中出现了连续异常的情况,异常数据占有历史预测数据窗口的最近部分,后期的预测值将会接近于异常数据,致使连续的异常数据在后期被认为是正常数据。于是借鉴用数据子集进行GP模型训练得到最优预测模型的思想,引入UBCS算法,将其与GPR预测模型结合用于数据流中连续异常检测。UBCS算法应用于数据流时可以利用较小的内存使用量得到设定尺寸的抽样样本,且其抽样符合均匀抽样的规律,抽样样本均匀分布在有效窗口内,基于以上的优点,将其引入到GPR预测模型的数据流异常检测算法中,主要适用于时间序列数据流正常模式的幅值波动不太的情况,其可以很好的检测出其过程的连续异常,抽样GPR方法的异常检测框架的执行步骤如下:

(1)收集滑动窗口的训练数据。现有的异常检测框架,假设设定历史滑动窗口的尺寸为30时,只需要将数据流到达的前30个数据作为预测窗口数据即可。而结合抽样算法的预测框架中,如果设定抽样比为3:1,则得到窗口尺寸为30的数据时,需要将数据流的前90个数据作为离线数据进行抽样后得到初始的30个预测数据窗口内的数据。

(2)利用滑动窗口DT训练模型,得到最优模型后,使用一步预测模型,当前数据流索引作为输入,得到预测值

(3)用概率p计算正常情况下数据流在t+1时刻的数值波动范围的上下限。得到GPR模型的置信区间,其置信区间为

(4)当t+1时刻对应的数据xt+1到达时,将其与第(3)步确定的正常数据的范围进行比较,如果它超出了正常数据的预测间隔,则视其为异常,否则为正常事件。

(5)利用UBCS算法确定当前的真实数据xt+1数值是否将加入预测窗口,如果满足UBCS算法的判断条件则将其存储,否则将其舍弃。

(6)判断当前窗口内数据尺寸是否大于设定值,如果是的话则将窗口中最早的数据删除。

(7)重复过程(2)-(6)。从而可以实时的估计出数据流的异常情况。

结合抽样算法的GPR异常检测的整体框架如图1所示。

4、仿真验证及评估

性能评价指标:

在进行数据异常检测时,其被检测的情况如表1所示。

表1异常检测可能出现的情况

所以为了验证异常检测算法的可用性,采用FNR与FPR作为评价指标,其定义分别如下:

(1)FPR(False Positive Ratio)

正常数据被错误的检测为异常,然后被拒绝,称为误检率,FPR=FN/(TP+FN);

(2)FNR(False Negative Ratio)

异常数据被检测为正常,然后被接受,称为漏检率,FNR=FP/(FP+TN);

针对于数据流异常检测,算法的执行效率也是重要的性能指标,因此同样将算法的运行时间作为算法的另一种评价指标。其定义为:

t=算法在执行同样的数据量异常检测时所消耗的时间。

基于抽样GPR方法的数据流连续异常检测实验:

基于历史数据的异常检测框架对于数据流中的连续异常的检测效果较差,此处将对前面提出的抽样GPR方法进行实验验证。

连续异常主要指的是数据流随时间到达过程中数据幅值出现连续波动的情况。考虑到实际情况中其异常数据的定义有其特定的物理含义,无法较好地用于衡量算法对于单点异常的检测率,因此利用仿真数据集来对算法的性能进行评价。产生的原则为采用符合特定分布的数据模拟正常数据模式,而不属于该分布的,且采用幅值与正常数据差别较大的连续的数据模拟异常行为。

通过人工生成的服从均匀分布的数据集模拟正常数据流,并采用时间数据流中的多个连续幅值偏差较大的数据对数据流中有可能出现的连续异常进行模拟,异常数据量为6%,较均匀地分布在整个测试数据集中,且考虑到数据流的演化特性,再通过均匀分布的阈值的改变及异常值幅值的改变来模拟数据流正常模式与异常模式的演化,最终模拟数据流的表达形式如下式所示:

原始数据形式如图3所示。

历史训练窗口仍然取为30,抽样比设定为1/3,即3个数据中随机选取1个作为采样数据,这样使得当连续异常出现时,减少异常数据对历史预测窗口的占有情况。

实验评价指标为FNR、FRP、算法运行时间,结合抽样算法的GPR模型的异常检测结果可知,连续出现的异常都比较直观的位于基于抽样GPR方法预测的置信区间以外,而正常数据大多落在置信区间内,以此达到了更好地连续异常检测效果。而且当数据的正常模式发生变化时,即数据的幅值发生改变时,基于预测模型的异常检测方法可以随着数据的变化自适应地改变正常数据的模式,实现数据流的自适应异常检测。

定量的评价对比如表2所示。

表2两种框架下异常检测定量比较

从上表可以看出,对于数据流的连续异常,采用抽样GPR的预测模型后,异常检测率得到大大提升,而且误检率的性能没有较大影响。但是执行UBCS算法还是降低了算法的时间效率,在实际应用中,对于大量的随时间到达的数据,当数据流流速满足算法的执行时间要求时,抽样GPR方法可以更好地适用于此时数据流的连续异常的情况。

UBCS(uniform basic-windows chain sampling)算法补充

对于当前比较流行的应用于数据流抽样的算法中,RS算法,其只能对数据流中新数据的输入进行响应,而不能处理过期数据的删除,故不适用于滑动窗口数据流模型。而CS算法其在最坏情况下内存使用量不确定,且作为多重采样算法,需要同时维护多个采样链,导致了资源的浪费。而后提出的SBWRS算法考虑了数据流中数据的时间特性,但是其需要存储整个窗口,故只适用于滑动窗口尺寸较小的情况。最优抽样算法也是多重抽样算法,需要同时维护多个抽样过程。作为数据流抽样算法,旨在利用相对较少的内存使用量来满足设定的采样样本要求,且考虑到均匀抽样算法更普遍且更受关注,数据成为样本的概率应保持一致。考虑到抽样样本需要更综合的反映整个有效窗口的信息,因此其采样样本最好能较均匀的分布在整个窗口中。针对于以上应用需要,提出一种基于数据元素滑动窗口数据流模型的均匀单链抽样算法UBCS,Uniform Basic-windows Chain Sampling,该算法引进了基本窗口技术的思想,融合CS算法的优点,可以达成以下目标:

(1)抽样算法满足均匀抽样要求,即每一个数据均以相同的概率成为采样样本。

(2)抽样算法在最坏情况下内存使用量确定,为O(k)。

(3)为了更好地得到窗口内数据的综合信息,采样样本均匀分布在当前有效窗口内。

算法描述:

均匀抽样方法,它包括以下步骤:

步骤一:设定滑动窗口数据流的窗口尺寸为N,采样尺寸为k,则每个基本窗口尺寸为N/k,N/k的比值为向下取整的比值,则第一个基本窗口中的元素索引为[1,2,3,...,N/k],第二个基本窗口中的元素索引为[N/k+1,N/k+2,...,2*N/k],……,第I个基本窗口中的数据元素索引为[(I-1)*N/k+1,...,I*N/k];

步骤二:采用UBCS算法从第一个基本窗口中随机选择一个元素索引作为代表索引;

步骤三:当第一个基本窗口中的代表索引对应的元素到达时,进行存储,并以此作为均匀抽样数据流的采样样本数据的开始;

步骤四:顺次获取下一个基本窗口中的代表索引,并在该下一个基本窗口中的代表索引对应的元素到达时,进行存储,直至当前第一个基本窗口的代表索引与当前时刻对应的当前基本窗口的代表索引的差大于窗口尺寸N时,删除当前第一个基本窗口的代表索引对应的元素;同时当均匀抽样数据流的采样样本数据的个数大于采样尺寸k时,从均匀抽样数据流的采样样本数据中随机删除一个采样样本数据,循环执行该步骤直到传感器网络的数据流结束。

若只关注最近一天的数据,传感器网络的采集速率为0.5s,则N=24*3600/0.5=172800,采用UBCS算法将滑动窗口数据流分为多个基本窗口。采样样本数据若对应于传感器网络数据流,则数据为高维的。

所述步骤一中传感器网络的滑动窗口数据流的窗口尺寸N为6,采样尺寸k为2,则每个基本窗口尺寸N/k为3,则第一个基本窗口中的元素索引为[1,2,3],第二个基本窗口中的元素索引为[4,5,6],……。

所述步骤二中选取的第一个基本窗口中的代表索引为2。

所述步骤三中当第一个基本窗口中代表索引2对应的元素到达时,进行存储,并以此作为均匀抽样数据流的采样样本数据的开始。

选取第二个基本窗口中的代表索引为5,获取第二个基本窗口中的代表索引5,并在该代表索引5对应的元素到达时,进行存储;选取第三个基本窗口中的代表索引为7,再获取第三个基本窗口中的代表索引7,并在该代表索引7对应的元素到达时,进行存储;此时均匀抽样数据流的采样样本数据的个数为3个,大于采样尺寸2,则从均匀抽样数据流的采样样本数据中随机删除一个采样样本数据;选取第四个基本窗口中的代表索引为11,再继续获取第四个基本窗口中的代表索引11,此时,代表索引11与第一个基本窗口中的代表索引2的差为9,大于窗口尺寸6,则代表索引2所对应的元素过期删除,循环执行直到传感器网络的数据流结束。

UBCS算法的一个小的执行例子如图4所示。

UBCS算法执行流程如图5所示。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号