首页> 中国专利> 一种基于特征点符号聚集近似的时间序列异常挖掘方法

一种基于特征点符号聚集近似的时间序列异常挖掘方法

摘要

本发明公开一种基于特征点符号聚集近似的时间序列异常挖掘方法,用特征点符号聚集近似方法表征时间序列,并在此基础上对符号串进行距离度量,得出异常数据。该方法包括时间序列降维技术,选取符合条件的极值点和分段平均值作为特征点表征序列;符号化方法,利用符号化聚集近似的思想,将特征点序列转化为符号串;符号串间距离度量方法,定义了一个基于符号距离的动态时间弯曲距离用于度量两个符号串之间的距离,挖掘出异常数据。本发明突出了符号化方法简便快速、高度概括的特点,为后续的进一步挖掘节省了大量计算时间,提高了效率。

著录项

  • 公开/公告号CN102867052A

    专利类型发明专利

  • 公开/公告日2013-01-09

    原文格式PDF

  • 申请/专利权人 河海大学;

    申请/专利号CN201210337740.5

  • 发明设计人 朱跃龙;刘千;张鹏程;

    申请日2012-09-13

  • 分类号G06F17/30(20060101);

  • 代理机构南京苏高专利商标事务所(普通合伙);

  • 代理人柏尚春

  • 地址 210098 江苏省南京市鼓楼区西康路1号

  • 入库时间 2024-02-19 16:35:27

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-26

    未缴年费专利权终止 IPC(主分类):G06F17/30 专利号:ZL2012103377405 申请日:20120913 授权公告日:20150729

    专利权的终止

  • 2015-07-29

    授权

    授权

  • 2013-02-20

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20120913

    实质审查的生效

  • 2013-01-09

    公开

    公开

说明书

技术领域

本发明涉及一种时间序列异常挖掘的技术,具体是一种基于特征点符号聚集 近似的时间序列异常挖掘方法,使用时间序列的符号化方法以及在此基础上对于 时间序列距离的度量。

背景技术

时间序列是一个由随时间变化的序列值或事件数据组成的集合,反映了属性 值在时间顺序上的特征,这些记录集合往往采用等时间间隔进行度量,他们具有 数据量大、维数高、更新速度快等特点,在医疗、气象、经济等领域普遍存在。 在时间序列数据挖掘中,大部分挖掘任务是为了发现那些频繁出现的模式,期望 发现某种规律,异常数据通常被作为噪声而忽略。但在一些领域中,尽管异常数 据与正常数据相比并不是经常发生,但其发生的背后可能隐藏着一些重要的信 息,异常数据的发现往往能带给人们更有价值和启发意义的知识。

目前,时间序列异常挖掘的主要方法主要存在以下的不足:

基于距离的方法所需对时间复杂度较大,效率不能保证;

生物学方法在正常数据越来越多样化的情况下,可能导致挖掘失败;

基于频率的方法需要给出一组标准的参考值;

支持向量机技术不仅理论复杂,而且对于建模过程要求也十分苛刻;

基于TSA-tree的方法无法保证挖掘结果的全面性和正确性。

发明内容

发明目的:针对现有技术中存在的问题,本发明提供一种基于特征点符号聚 集近似的时间序列异常挖掘方法,在保证挖掘结果全面正确的前提下,克服基于 距离的时间序列异常挖掘方法计算量大、时间复杂度高的劣势,将复杂的时间序 列分析问题尽可能地简单化。

技术方案:一种基于特征点符号聚集近似的时间序列异常挖掘方法,包括特 征点符号聚集近似方法和符号串间距离的度量方法;

所述特征点符号聚集近似方法为:

a)时间序列降维,通过提取时间序列的特征点来表征该序列,所述特征点 由三部分构成,即序列的起点和终点、极值特征点以及均值特征点。其中,选取 保持时间段与时间序列长度之比大于等于阈值L的极值点,以及包含N个极值 点的分段子序列平均值作为该序列的特征点,达到降维的目的。L的取值根据原 始时间序列的长度、不同领域知识以及关注角度而定,一般情况下为0.01~0.1; N的取值最小为1,最大为该序列的所有极值特征点个数。

b)符号化:采用符号化聚集近似(Symbolic Aggregate Approximation,SAX) 方法划分若干个个等概率空间,通过对时间序列的标准化使其满足标准正态分 布,然后按照上述a)中的时间序列降维方法选取合适的特征点,逐一将特征点 映射到对应的一个概率区间,处于同一概率区间的序列值用相同的符号表示,最 后得到一个长度与特征点个数相同的符号串。

所述符号串间距离的度量方法为:根据动态时间弯曲(Dynamic Time  Warping,DTW)方法,采用字符间距离代替原来的欧式距离,得出两个符号串 之间的距离,进而得到任意一个符号串与其余符号串之间的距离之和,称其为累 积距离,从而根据该累积距离值的大小挖掘出异常数据。

有益效果:与现有的技术相比,本发明所提供的基于特征点符号聚集近似的 时间序列异常挖掘方法,突出了符号化简便快速地表征时间序列的特点,将复杂 的时间序列转化为抽象化的字符串,继而为后续的进一步挖掘节省了大量计算时 间,挖掘结果不仅具有典型的代表意义,而且全部符合实际,类型多样。

附图说明

图1为本发明实施例的整体框架图;

图2为本发明实施例的降维方法流程图;

图3为本发明实施例的符号化方法流程图;

图4为本发明实施例的的距离度量方法流程图。

具体实施方式

下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本 发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发 明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示,本实施例提供的时间序列异常挖掘方法包含了三个主要模块: 降维技术、符号化方法和距离度量方法,其中降维技术和符号化方法两部分组成 了特征点符号聚集近似的主要内容。

如图2所示,待提取的特征点由以下三个部分组成:序列的起点和终点、符 合保持极值时间段的极值特征点以及包含确定数目极值点的序列分段均值特征 点。

符合提取条件的极值特征点需满足下面两个条件:

A)此点必须是该序列的极值点;

B)此点保持极值的时间段(此点前后相邻两个极值点之间的距离)与该序 列长度的比值必须大于或等于阈值L。L的取值根据原始时间序列的长度、不同 领域知识以及关注角度而定,一般情况下为0.01~0.1。

极值特征点不仅需要记录值的大小,还应保存其在序列中所对应的序号,将 其视为该特征点的坐标。

均值特征点则是保证每段子序列包含N个极值特征点,然后照此原则划分 原始序列,算出每段子序列的平均值,并将此段子序列起点和终点之和的一半作 为此均值特征点的坐标。N的取值最小可为1,表示此段子序列只包含1个极值 特征点,最大可为该序列的所有极值特征点个数,此时该序列的均值特征点只有 一个,为该序列所有点的平均值。

降维方法步骤如下:

步骤101,输入待挖掘的原始时间序列;

步骤102,将原始序列的起点保存为特征点,并设置一个指向第二个点的游 标;

步骤103,循环开始,判断游标指向的点是否为该时间序列的极值点;

步骤104,若不是极值点,则游标指向下一个点;

步骤105,若是极值点,则保存,游标指向下一个点;

步骤106,如此循环,直至游标指向序列终点;

步骤107,保存该序列终点为特征点;

步骤108,开始剩余寻找特征点,将游标置于极值点数组的第二个点;

步骤109,开始循环,判断游标指向的点前后两个极值点之差与序列长度之 比是否大于等于L;

步骤110,若不满足,游标指向下一个点;

步骤111,若满足,则保存为特征点,游标指向下一个点;

步骤112,如此循环,直至游标指向数组最后一个点;

步骤113,根据N的大小,划分原始序列,算出分段平均值及其坐标;

步骤114,按照坐标大小将所有特征点非递减排序;

如图3所示,符号化方法的步骤如下:

步骤201,输入待挖掘的原始时间序列;

步骤202,由于本发明中所采用的符号化方法依托符号化聚集近似(SAX) 的思想,因此在进行符号化之前,需要对原始时间序列进行标准化,使其满足标 准正态分布。采用零-均值方法,对于原始序列C,将其标准化为序列其中u 和v分别为该序列的平均值和标准差:

步骤203,按照图2所示流程对序列进行降维;

步骤204,确定选取的符号总数a;

步骤205,将已提取特征值的特征点序列划分到a个等概率空间,根据特征 点序列的值,把处于同一概率区间的值用同一个符号表示。如符号总数a=5时, 即采用A、B、C、D、E共5个符号表示序列。这样,一个特征点序列就可以转 换为一个符号串。

等概率区间的划分见表1,β1,β2,...,β9为分位点。相应数值根据标准 正态分布表计算得出,例a=3时,每个空间的概率应为1/3,查找标准正态分布 表,Φ(0.43)=0.6664,Φ(-0.43)=1-0.6664=0.3336,即得出分位点的数值。

表1符号总数a=3,4,......10时等概率区间的划分

步骤206,得到符号串。

如图4所示,距离度量方法的步骤如下:

步骤301,输入两个待计算距离的符号串;

步骤302,定义两个符号之间距离,通过一个矩阵来描述对应的各个符号间 的距离,具体的计算方法如下,其中i,j分别表示行、列数,βn可参照表1:

dis[i][j]=0,if|i-j|1βmax(i,j)-1-βmin(i,j),otherwise---(2)

符号总数a=5时,即采用A、B、C、D、E共5个符号表示序列,各符号间 的距离见表2。例计算符号A和D之间的距离,dis[1][4]=β31=0.25-(-0.84) =1.09。

表2符号总数a=5时各符号之间的距离

  A   B   C   D   E   A   0   0   0.59   1.09   1.68   B   0   0   0   0.5   1.09   C   0.59   0   0   0   0.59   D   1.09   0.5   0   0   0   E   1.68   1.09   0.59   0   0

步骤303,对于两个长度分别为m、n的符号串S、T之间距离,构造S和T之 间的m*n关系矩阵D;

步骤304,关系矩阵D坐标(i,j)对应的矩阵元素Dij表示序列对应符号si,tj之间的距离,其中i≤m,j≤n:

Dij=d(si,tj)=dis(si,tj)                  (3)

dis(si,tj)引用公式2得出。

步骤305,符号串S、T之间的动态弯曲距离如下:

dDTW(1,1)=d(s1,t1)=dis(s1,t1)

dDTW(i,j)=d(si,tj)+min{dDTW(i-1,j),dDTW(i,j-1),dDTW(i,j)}     (4)

式中dDTW(i,j)为累加距离,由对准点和其下方位最佳弯曲路径中最小值 相加得到。

步骤306,弯曲路径终点的值就是这两个符号串之间的动态弯曲距离。

通过上述方法可以得到任意一个时间序列与其他序列之间的距离之和,称为 累积距离,根据该距离的大小递减排序,那些排在前面的序列被认为是与其他序 列的相似程度较低,可视为存在异常情况。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号