首页> 中国专利> 针对计算机系统的行为异常自动检测方法及检测系统

针对计算机系统的行为异常自动检测方法及检测系统

摘要

本发明涉及一种针对计算机系统的行为异常自动检测方法及检测系统,通过监控系统以时间序列的形式采集被检查机器的历史性能指标数据和实时性能指标数据,由时间序列预处理算法进行数据分段,去噪,尖峰点提取以及时间序列重建步骤,通过时间序列动态对齐算法进行各段时间序列之间的行为相似性进行计算从而构建时间序列相似性矩阵,最后由马尔科夫随机游走排序算法从相似性矩阵当中计算出各个时间段的行为异常指数。本发明针对计算机系统中的行为异常检测问题,全面考虑一段时间内的机器行为特征,通过各时段行为相互之间的相似性,采用马尔科夫随机游走排序进行全面的排序和异常评分,获得高自动化高检出率,无需训练的智能化行为异常检测。

著录项

  • 公开/公告号CN104317681A

    专利类型发明专利

  • 公开/公告日2015-01-28

    原文格式PDF

  • 申请/专利权人 上海交通大学;

    申请/专利号CN201410443322.3

  • 发明设计人 曹健;沈琪骏;顾骅;

    申请日2014-09-02

  • 分类号G06F11/22(20060101);

  • 代理机构31236 上海汉声知识产权代理有限公司;

  • 代理人胡晶

  • 地址 200240 上海市闵行区东川路800号

  • 入库时间 2023-12-17 04:14:53

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-02-11

    专利权的转移 IPC(主分类):G06F11/22 登记生效日:20200116 变更前: 变更后: 申请日:20140902

    专利申请权、专利权的转移

  • 2017-09-08

    授权

    授权

  • 2015-02-25

    实质审查的生效 IPC(主分类):G06F11/22 申请日:20140902

    实质审查的生效

  • 2015-01-28

    公开

    公开

说明书

技术领域

本发明涉及一种行为异常自动检测方法及检测系统,尤其涉及一种针对计算机系统的行为异常自动检测方法及检测系统。 

背景技术

随着计算机硬件软件的技术不断提高,网络技术不断进步,计算机成为目前人们生产生活当中必不可少的部分。特别是在近几年来高速互联网络普及和计算机处理性能飞跃性提升,以及虚拟化技术的不断完善的推动下,计算机作为一种计算资源在当前社会的使用中往往承担着非常重要的任务诸如重要信息的存取,关键工作的计算等等。许多的企业系统和政府部门服务现在都有大型的计算机系统来进行支撑。因此计算机系统的稳定性和可靠性是目前的使用环境下必须要保证的重要方面。随着目前计算机科学技术的不断发展,软件硬件复杂性持续提高,同时计算机系统特别是云计算平台这类大型系统的使用方式也日益复杂。有研究表明由于系统本身结构的复杂化和使用模式的复杂化,我们所面对的系统异常无论是在数量上还是种类上也是随之而不断增加的。计算机系统当中的异常会直接影响到运行在其上的程序的性能甚至结果,可能对于承载在计算机上的各种任务造成不可估量的负面影响,直接损害到企业和部门的正常工作程序甚至于造成经济损失。如果能够自动化发现计算机系统当中存在的异常,那么就可以缩短异常发现和异常应对时间,减少异常持续时间从而减小异常造成的损害,同时给异常自动化应对打下基础。 

系统行为异常是指在系统运行期间,在一定时间段内出现的系统行为模式,包括系统计算负载,系统网络流量,系统存储利用率,系统承担的具体任务等方面,与历史正常情况出现明显的差别。当前的异常自动检测系统主要采用以下几种模式,第一是阈值报警,第二是基于统计函数,第三是基于机器学习,但是这些方法主要针对于时间点或者小时间段进行精测。系统行为异常定义在较长的一段时间段上,难以通过普通的阈值报警方法进行检测,而且可能对于整个系统的功能,效率以及安全性造成直接或者间接的影响。而其他针对时间点或者小时间段的智能检测技术,包括基于机器学习和统计学的方法,存在着需要人工对历史数据分配标识,自动化程度不高,无法全面识别较长时间段数 据特征等缺陷,造成检出率低而误报率高的不足之处。 

发明内容

本发明的目的在于提供一种针对计算机系统的行为异常预测方法,解决了针对计算机系统行为异常检测自动化程度不高,无法有效利用监控数据中的行为信息造成检出率低下而误报率过高的问题。 

为了解决上述问题,本发明涉及了一种针对计算机系统的行为异常自动检测方法,包括以下步骤: 

S1:将从所述计算机系统的监控系统或后台数据库中获得的历史监控数据和实时监控数据流构成监控时间序列; 

S2:将监控时间序列按照所述计算机系统的使用率的变化周期分段为若干数据段,按照所有数据段当中的最长采样点数对所有数据段进行重采样;对所述若干采样后的数据段分段去噪得到平滑时间序列段,计算采样前数据段的标准差和平均值,遍历每个采样点,采样点和所述平均值的欧几里得距离小于预定倍数标准差则偏差值设为0,否则偏差值设为绝对偏差距离,由每段时间序列段采用点的偏差值构成若干尖峰时间序列段;将尖峰时间序列段和去噪后的平滑时间序列段相加构成新的监控时间序列段; 

S3:将新的监控时间序列段动态对齐,并计算每段时间段中的所述计算机系统的机器行为相似性指数; 

S4:将S3中得到的相似性指数构成一个相似性矩阵,通过相似性矩阵转化为一个图的邻接矩阵,使得图中,相似性指数作为边权,时间段本身作为节点; 

S5:利用马尔科夫随机游走算法在S3中得到的图上进行游走得到各新的监控时间序列段的连接度,作为每个被检测时间段的异常指数。 

较佳地,原始时间序列中包括常规序列段和非常规特性段,所述常规序列段的时间戳之间的间隔时间一致,所述非常规序列段的时间戳之间的间隔时间不一致,按照所有分段当中最长采样个数对所有数据段进行线性重采样,使得监控时间序列获得相同的采样间隔和采样次数。 

较佳地,S3中进一步包括,根据实际负载情况进行预定范围以内的新的时 间序列段对齐,同时用欧几里得距离函数计算对齐后的新的时间序列段的相似度。 

较佳地,对于任意的两个监控时间序列Fi和Fj组成的监控时间序列对,用以下的方程来获得Fi和Fj的相似性指数: 

dist_up=f[ii-1][jj-k]+Euclidean(Fi[ii],Fj[jj-k+1])+…+Euclidean(Fi[ii],Fj[jj-k]), 

dist_down=f[ii-k][jj-1]+Euclidean(Fj[ii],Fi[jj-k+1])+…+Euclidean(Fj[ii],Fi[jj-k]), 

f[ii,jj]=min(dist_up,dist_down,f[ii][jj]), 

similarity=f[L,L], 

其中,L为监控时间序列段长度;Euclidean为欧几里得距离函数;Fi为第i段监控时间序列,i=1,2…m;Fj为第j段监控时间序列,i=1,2…m;Similarity为第i段监控时间序列与第j段监控时间序列的相似性指数;ii,jj,k为循环变量,其中ii为监控时间序列Fi中的任一采样点,jj为监控时间序列Fj中的一任意采样点,k为移动步数,ii=0,1…L;jj=0,1…L;k=0,1…n,f[ii][jj]为计算需要的中间结果。 

较佳地,还包括S6:设定判断阈值Threshold,连接度小于阈值Threshold的时间段标记为行为异常,连接度大于阈值Threshold的时间段标记为行为正常。 

为了解决上述问题,本发明还涉及了一种针对计算机系统的行为异常自动检测系统,包括: 

数据采集装置,将从所述计算机系统的监控系统或后台数据库中获得的历史监控数据和实时监控数据流构成监控时间序列; 

监控时间序列重建装置,将监控时间序列按照所述计算机系统的使用率的变化周期分段为若干数据段,按照所有数据段当中的最长采样点数对所有数据段进行重采样;对所述若干采样后的数据段分段去噪得到平滑时间序列段,计算采样前数据段的标准差和平均值,遍历每个采样点,采样点和所述平均值的欧几 里得距离小于预定倍数标准差则偏差值设为0,否则偏差值设为绝对偏差距离,由每段时间序列段采用点的偏差值构成若干尖峰时间序列段;将尖峰时间序列段和去噪后的平滑时间序列段相加构成新的监控时间序列段; 

相似性指数计算装置,将新的监控时间序列段动态对齐,并计算每段时间段中的所述计算机系统的机器行为相似性指数; 

邻接矩阵建立装置,将相似性指数计算装置中得到的相似性指数构成一个相似性矩阵,通过相似性矩阵转化为一个图的邻接矩阵,使得图中,相似性指数作为边权,时间段本身作为节点; 

异常指数评定装置,利用马尔科夫随机游走算法在邻接矩阵建立装置中得到的图上进行游走得到各新的监控时间序列段的连接度,作为每个被检测时间段的异常指数。 

较佳地,原始时间序列中包括常规序列段和非常规特性段,所述常规序列段的时间戳之间的间隔时间一致,所述非常规序列段的时间戳之间的间隔时间不一致,按照所有分段当中最长采样个数对所有数据段进行线性重采样,使得监控时间序列获得相同的采样间隔和采样次数。 

较佳地,监控时间序列重建装置中进一步包括,根据实际负载情况进行预定范围以内的新的时间序列段对齐,同时用欧几里得距离函数计算对齐后的新的时间序列段的相似度。 

较佳地,对于任意的两个监控时间序列Fi和Fj组成的监控时间序列对,用以下的方程来获得Fi和Fj的相似性指数: 

dist_up=f[ii-1][jj-k]+Euclidean(Fi[ii],Fj[jj-k+1])+…+Euclidean(Fi[ii],Fj[jj-k]), 

dist_down=f[ii-k][jj-1]+Euclidean(Fj[ii],Fi[jj-k+1])+…+Euclidean(Fj[ii],Fi[jj-k]), 

f[ii,jj]=min(dist_up,dist_down,f[ii][jj]), 

similarity=f[L,L], 

其中,L为监控时间序列段长度;Euclidean为欧几里得距离函数;Fi为第 i段监控时间序列,i=1,2…m;Fj为第j段监控时间序列,i=1,2…m;Similarity为第i段监控时间序列与第j段监控时间序列的相似性指数;ii,jj,k为循环变量,其中ii为监控时间序列Fi中的任一采样点,jj为监控时间序列Fj中的一任意采样点,k为移动步数,ii=0,1…L;jj=0,1…L;k=0,1…n,f[ii][jj]为计算需要的中间结果。 

较佳地,还包括行为异常标记装置,设定判断阈值Threshold,连接度小于阈值Threshold的时间段标记为行为异常,连接度大于阈值Threshold的时间段标记为行为正常。 

本发明由于采用以上技术方案,与现有技术相比,具有以下的优点和积极效果: 

1)本发明利用易于收集的底层性能数据来识别系统行为,而无需高层的操作系统或者软件运行记录,可以直接架设在现有的监控系统上,降低了部署难度; 

2)本发明采用时间序列动态对齐算法,将不同时间段内的时间序列监控数据按照行为模式对齐,从而减少可容忍行为变化带来的误差,从而降低误报率; 

3)本发明利用行为模式之间的关系而不是对行为模式本身进行建模,因此不需要人工对历史数据分配标识,大大提高自动化程度,同时极大的提高在多变环境下的检测能力; 

4)本发明通过马尔科夫随机游走算法对时间段行为进行异常指数计算,全面利用行为模式之间的相互关系信息,提高了识别率,并允许管理员选择阈值来做最终的异常和正常分类,提供灵活性。 

附图说明

图1为本发明一种针对计算机系统的行为异常自动检测方法的流程图; 

图2为本发明一种针对计算机系统的行为异常自动检测系统的结构框图。 

具体实施方式

以下将结合本发明的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,这里所描述的仅仅是本发明的一部分实例,并不是全部的实例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。 

为了便于对本发明实施例的理解,下面将结合附图以具体实施例为例作进一步的解释说明,且各个实施例不构成对本发明实施例的限定。 

实施例一 

请参考图1,本发明提供了针对计算机系统的行为异常自动检测方法,主要包括以下步骤: 

S1:将从所述计算机系统的监控系统或后台数据库中获得的历史监控数据和实时监控数据流构成监控时间序列; 

本实施例中,选择从前端监控系统中直接获得一台受监控机器的中央处理器使用率值(CPU Usage Rate,y)和相应的时间戳(Timestamp,t)。并将其构成监控时间序列Y=[(y1,t1),(y2,t2),...,(yn,tn),...]。 

其中,Y——最终的完整时间序列; 

yi——时间序列当中第i个元素的CPU占用率,i=0,1…n,n为时间序列的元素个数; 

ti——时间序列当中第i个的时间戳,i=0,1…n,n为时间序列的元素个数;S2:将监控时间序列按照所述计算机系统的使用率的变化周期分段为若干数据段,按照所有数据段当中的最长采样点数对所有数据段进行重采样;对所述若干采样后的数据段分段去噪得到平滑时间序列段,计算采样前数据段的标准差和平均值,遍历每个采样点,采样点和所述平均值的欧几里得距离小于预定倍数标准差则偏差值设为0,否则偏差值设为绝对偏差距离,由每段时间序列段采用点的偏差值构成若干尖峰时间序列段;将尖峰时间序列段和去噪后的平滑时间序列段相加构成新的监控时间序列段。其中,原始时间序列中包括常规序列段和非常规特性段,所述常规序列段的时间戳之间的间隔时间一致,所述非常规序列段的时间戳之间的间隔时间不一致,按照所有分段当中最长采样个数对 所有数据段进行线性重采样,使得监控时间序列获得相同的采样间隔和采样次数。 

本实施例中,根据经验得到CPU使用率的变化周期为T,经过自回归分析检验周期的有效性后,将S1中得到的时间序列Y根据变化周期T分为若干数据段Y1,Y2…Ym。其中检验周期有效性一般为:CPU历史记录序列在选择周期为T的条件下,计算序列的自相关系数,其绝对值高于0.5即为周期有效。其中m=tn/T,m为数据段的总数。原始时间序列中存在非常规特性,即时间戳之间的间隔时间不统一的情况,则按照所有分段当中最长采样个数对所有数据段进行线性重采样,使得时间序列获得相同的采样间隔和采样次数。 

用sym6为基底的小波变换和sqtwolog阈值控制进行分段去噪,得到去噪后的结果为R1,R2…Rm。其中m=tn/T。 

从分段后的数据段中提取尖峰数据点。方法为首先计算采样前数据段的标准差和平均值。之后遍历每个采样点,若数据点和平均值的欧氏距离超过三倍标准差,则判断此数据点为尖峰数据点。将尖峰数据点对应的偏差距离(若与平均值的欧氏距离小于三倍标准差,则为0,否则即为绝对偏差值)构成的时间序列记为P1,P2…Pm。其中m=tn/T。 

将尖峰时间序列和去噪后的平滑时间序列相加重构成新的时间序列段F1,F2…Fm。其中Fi=Pi+Ri,m=tn/T。 

S3:根据实际负载情况进行预定范围以内的新的时间序列段对齐,同时用欧几里得距离函数计算对齐后的新的时间序列段的相似度。 

本实施例中,对于任意的两个经过以上处理后的监控时间序列段,组成监控时间序列段对,记为Fi,Fj,记它们的长度均为L,用以下的方程来获得这对监控时间序列的行为相似性。 

dist_up=f[ii-1][jj-k]+Euclidean(Fi[ii],Fj[jj-k+1])+…+Euclidean(Fi[ii],Fj[jj-k]) 

dist_down=f[ii-k][jj-1]+Euclidean(Fj[ii],Fi[jj-k+1])+…+Euclidean(Fj[ii],Fi[jj-k]) 

f[ii][jj]=min(dist_up,dist_down,f[ii][jj]) 

similarity=f[L,L](L为序列Fi,Fj的长度) 

其中,L——监控时间序列段长度; 

Euclidean——欧几里得距离函数; 

Fi——第i段监控时间序列,i=1,2…m; 

Fj——第j段监控时间序列,j=1,2…m; 

Similarity——为第i段监控时间序列段与第j段监控时间序列段的相似性指数; 

ii,jj,k——循环变量,ii为其中一个监控时间序列Fi中的任一采样点,jj为另一个监控时间序列Fj中的任意采样点,k为移动步数,ii=0,1…L;jj=0,1…L;k=0,1…n;(L为监控时间序列段长度,n为最大允许的偏移步数) 

f[ii][jj]——计算需要的中间结果; 

S4:将S3中得到的相似性指数构成一个相似性矩阵,通过相似性矩阵转化为一个图的邻接矩阵,使得图中,相似性指数作为边权,时间段本身作为节点。 

本实施例中, 

使用以下方程将S3中得到的相似性指数矩阵转化为一个图的邻接矩阵。 

>T(i,j)=M(i,j)Σi=1nM(i,j)ifij0ifi=j>

其中,T(i,j)——邻接矩阵中第i行,第j列的元素,其中i=1,2…m,j=1,2…m; 

M(i,j)——相似性矩阵中第i行,第j列的元素,等于S3中Fi,Fj得到的similarity; 

更具体的说,G=<V,E>是邻接矩阵代表的图,V表示一个图中的点集合,这里一个时间序列段映射到一个点,所以V就代表所有的时间序列段,也就是F1..Fm;V×V代表这些点组成的一个图,E是图上点之间的边的集合,每一条边有一个权值C,是边上两个点之间的距离,在这里距离就是相似性指数,E∈V×V是图中的边集合,代表监控时间序列段之间的关系,边权值Gi,j代表Vi和Vj之间的相似性指数,Vi和Vj分别为序列Fi和Fj,在图中映射的点,即S3中计算得到的similarity。 

S5:利用马尔科夫随机游走算法在S3中得到的图上进行游走得到各新的监控时间序列段的连接度,作为每个被检测时间段的异常指数。 

本实施例中,根据S4中得到的邻接矩阵T,带入以下方程中进行迭代计算,本实施例中以I(常见值1000)次迭代作为参数,即连续进行I次以下方程的迭代来获得最后的结果,而阻尼系数damp设为d(常见值0.01到0.2)。 

>conn=dampm+(1-damp)×T×conn>

其中,conn——每个监控时间序列段的连接度; 

damp——阻尼系数,控制方程的收敛速度; 

T——S3中得到的邻接矩阵; 

m——监控时间序列段数。 

经过足够多次数的迭代计算之后,conn将会趋向于一个恒定的向量值,而其中每一个值代表对应的监控时间段所的行为异常可能性,连接度越大表示该监控时间序列段表现出的行为特征越常见,发生行为异常的可能性越小,而连接度越小表示该监控时间序列段表现出的行为特征越罕见,发生行为异常的可能性越大。 

S6:设定判断阈值Threshold,连接度小于阈值Threshold的时间段标记为 行为异常,连接度大于阈值Threshold的时间段标记为行为正常。 

本实施例中,设定判断阈值Threshold,将S5中得到的连接度向量conn按从小到大的方式进行排序,连接度小于阈值Threshold的时间段标记为行为异常,连接度大于阈值Threshold的时间段标记为行为正常。 

除了直接的标号之外,也可以根据实际的连接度大小值来判断行为异常的程度,判断依据如S5中提到:连接度越大表示该监控时间序列段发生行为异常的可能性越小,而连接度越小表示该监控时间序列段发生行为异常的可能性越大。 

实施例二 

请参考图2,本发明提供了针对计算机系统的行为异常自动检测系统,包括数据采集装置、监控时间序列重建装置、相似性指数计算装置、邻接矩阵建立装置、异常指数评定装置以及行为异常标记装置,其中各装置具体如下。 

数据采集装置,与计算机系统相连接或设置于计算机系统内部,将从所述计算机系统的监控系统或后台数据库中获得的历史监控数据和实时监控数据流构成监控时间序列。 

本实施例中,选择从前端监控系统中直接获得一台受监控机器的中央处理器使用率值(CPU Usage Rate,y)和相应的时间戳(Timestamp,t)。并将其构成监控时间序列Y=[(y1,t1),(y2,t2),...,(yn,tn),...]。 

其中,Y——最终的完整时间序列; 

yi——时间序列当中第i个元素的CPU占用率,i=0,1…n,n为时间序列的元素个数; 

ti——时间序列当中第i个的时间戳,i=0,1…n,n为时间序列的元素个数。 

监控时间序列重建装置,与数据采集装置相连接将监控时间序列按照计算机系统的使用率的变化周期分段为若干数据段,按照所有数据段当中的最长采样点数对所有数据段进行重采样;对所述若干采样后的数据段分段去噪得到平滑时间序列段,计算采样前数据段的标准差和平均值,遍历每个采样点,采样点和所述平均值的欧几里得距离小于预定倍数标准差则偏差值设为0,否则偏差值设为绝对偏差距离,由每段时间序列段采用点的偏差值构成若干尖峰时间序 列段;将尖峰时间序列段和去噪后的平滑时间序列段相加构成新的监控时间序列段。其中,原始时间序列中包括常规序列段和非常规特性段,常规序列段的时间戳之间的间隔时间一致,非常规序列段的时间戳之间的间隔时间不一致,按照所有分段当中最长采样个数对所有数据段进行线性重采样,使得监控时间序列获得相同的采样间隔和采样次数。 

本实施例中,根据经验得到CPU使用率的变化周期为T,经过自回归分析检验周期的有效性后,将S1中得到的时间序列Y根据变化周期T分为若干数据段Y1,Y2…Ym。其中m=tn/T,m为数据段的总数。原始时间序列中存在非常规特性,即时间戳之间的间隔时间不统一的情况,则按照所有分段当中最长采样个数对所有数据段进行线性重采样,使得时间序列获得相同的采样间隔和采样次数。 

用sym6为基底的小波变换和sqtwolog阈值控制进行分段去噪,得到去噪后的结果为R1,R2…Rm,其中m=tn/T。 

从分段后的数据段中提取尖峰数据点。方法为首先计算采样前数据段的标准差和平均值。之后遍历每个采样点,若数据点和平均值的欧氏距离超过三倍标准差,则判断此数据点为尖峰数据点。将尖峰数据点对应的偏差距离(若与平均值的欧氏距离小于三倍标准差,则为0,否则即为绝对偏差值)构成的时间序列记为P1,P2…Pm。其中m=tn/T。 

将尖峰时间序列和去噪后的平滑时间序列相加重构成新的时间序列段F1,F2…Fm。其中Fi=Pi+Ri,m=tn/T。 

相似性指数计算装置,根据实际负载情况(相同的使用模式下的两个监控时间序列由于计算机的随机性会出现一定的时间偏移)进行预定范围以内的新的时间序列段对齐,即在一定的允许的调整范围内,将两个时间序列以距离最小为目标进行时间戳对齐。用欧几里得距离函数计算对齐后的新的时间序列段的相似度。 

本实施例中,对于任意的两个经过以上处理后的监控时间序列段,组成监控时间序列段对,记为Fi,Fj,记它们的长度均为L,用以下的方程来获得这对监控时间序列的行为相似性。 

dist_up=f[ii-1][jj-k]+Euclidean(Fi[ii],Fj[jj-k+1])+…+Euclidean(Fi[ii],Fj[jj-k]) 

dist_down=f[ii-k][jj-1]+Euclidean(Fj[ii],Fi[jj-k+1])+…+Euclidean(Fj[ii],Fi[jj-k]) 

f[ii,jj]=min(dist_up,dist_down,f[ii][jj]) 

similarity=f[L,L](L为序列Fi,Fj的长度) 

其中,L——监控时间序列段长度; 

Euclidean——欧几里得距离函数; 

Fi——第i段监控时间序列,i=1,2…m; 

Fj——第j段监控时间序列,j=1,2…m; 

Similarity——为第i段监控时间序列段与第j段监控时间序列段的相似性指数; 

ii,jj,k——循环变量,ii为其中一个监控时间序列Fi中的任一采样点,jj为另一个监控时间序列Fj中的任意采样点,k为移动步数,ii=0,1…L;jj=0,1…L;k=0,1…n;(L为监控时间序列段长度,n为最大允许的偏移步数) 

f[ii][jj]——计算需要的中间结果; 

邻接矩阵建立,连接相似性指数计算装置,将相似性指数计算装置中得到的相似性指数构成一个相似性矩阵,通过相似性矩阵转化为一个图的邻接矩阵,使得图中,相似性指数作为边权,时间段本身作为节点。 

本实施例中, 

使用以下方程将相似性指数计算装置中得到的相似性指数矩阵转化为一个图的邻接矩阵。 

>T(i,j)=M(i,j)Σi=1nM(i,j)ifij0ifi=j>

其中,T(i,j)——邻接矩阵的第i行,第j列,其中i=1,2…m,j=1,2…m; 

M(i,j)——相似性矩阵的第i行,第j列,等于相似性指数计算装置中Fi,Fj得到的similarity; 

V表示一个图中的点集合,这里一个时间序列段映射到一个点,所以V就代表所有的时间序列段,也就是F1..Fm;V×V代表这些点组成的一个图,E是图上点之间的边的集合,每一条边有一个权值C,是边上两个点之间的距离,在这里距离就是相似性指数,E∈V×V是图中的边集合,代表监控时间序列段之间的关系,边权值Ci,j代表Vi和Vj之间的相似性指数,Vi和Vj分别为序列Fi和Fj,在图中映射的点,即S3中计算得到的similarity。 

异常指数评定装置,连接邻接矩阵建立装置,利用马尔科夫随机游走算法在邻接矩阵建立装置中得到的图上进行游走得到各新的监控时间序列段的连接度,作为每个被检测时间段的异常指数。 

本实施例中,根据邻接矩阵建立装置中得到的邻接矩阵T,带入以下方程中进行迭代计算,本实施例中以I(常见值1000)次迭代作为参数,即连续进行I次以下方程的迭代来获得最后的结果,而阻尼系数damp设为d(常见值0.01到0.2)。 

>conn=dampm+(1-damp)×T×conn>

其中,conn——每个监控时间序列段的连接度; 

damp——阻尼系数,控制方程的收敛速度; 

T——S3中得到的邻接矩阵; 

m——监控时间序列段数。 

经过足够多次数的迭代计算之后,conn将会趋向于一个恒定的向量值,而其中每一个值代表对应的监控时间段所的行为异常可能性,连接度越大表示该监控时间序列段表现出的行为特征越常见,发生行为异常的可能性越小,而连接度越小表示该监控时间序列段表现出的行为特征越罕见,发生行为异常的可能性越大。 

行为异常标记装置,连接异常指数评定装置,设定判断阈值Threshold,连接度小于阈值Threshold的时间段标记为行为异常,连接度大于阈值Threshold的时间段标记为行为正常。 

本实施例中,设定判断阈值Threshold,将邻接矩阵建立装置中得到的连接度向量conn按从小到大的方式进行排序,连接度小于阈值Threshold的时间段标记为行为异常,连接度大于阈值Threshold的时间段标记为行为正常。 

除了直接的标号之外,也可以根据实际的连接度大小值来判断行为异常的程度,判断依据如上提到:连接度越大表示该监控时间序列段发生行为异常的可能性越小,而连接度越小表示该监控时间序列段发生行为异常的可能性越大。 

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。 

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号