首页> 中国专利> 一种检测异常数据区间的数据挖掘方法及系统

一种检测异常数据区间的数据挖掘方法及系统

摘要

本申请提供了一种检测异常数据区间的数据挖掘方法,在对目标数据进行数据挖掘之前,需要确定区间宽度和步进长度,在对目标数据进行数据挖掘的过程中,以区间步进的方式遍历目标数据,动态逐步获取目标数据的最大偏移量,确定当前数据区间的偏移率,将当前数据区间的偏移率与额定偏移率进行比较,当所述当前数据区间的偏移率大于所述额定偏移率时,确定所述当前数据区间中的异常数据点以及异常数据区间;当遍历完所有的目标数据后,得到所有的异常数据点、异常数据区间和所述目标数据的整体最大值和整体最小值,能够准确、快速的检测目标数据中的异常区间。

著录项

  • 公开/公告号CN105095482A

    专利类型发明专利

  • 公开/公告日2015-11-25

    原文格式PDF

  • 申请/专利权人 浪潮(北京)电子信息产业有限公司;

    申请/专利号CN201510498223.X

  • 发明设计人 何伟;

    申请日2015-08-13

  • 分类号G06F17/30;

  • 代理机构北京集佳知识产权代理有限公司;

  • 代理人罗满

  • 地址 100085 北京市海淀区上地信息路2号2-1号C栋1层

  • 入库时间 2023-12-18 12:21:18

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-10-02

    授权

    授权

  • 2015-12-23

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20150813

    实质审查的生效

  • 2015-11-25

    公开

    公开

说明书

技术领域

本申请涉及数据挖掘领域,特别涉及一种检测异常数据区间的数据挖 掘方法及系统。

背景技术

随着技术的发展,人们对异常数据区间的数据挖掘越来越关注。

现有的异常数据数据挖掘都是进行离群点或孤立点的检测,对于具有 时间或空间连续性的数据,也只能检测到异常的独立数据点,不能检测 到异常的数据区间。

因此,如何有效的检测到异常数据区间是本领域技术人员目前需要解 决的技术问题。

发明内容

本申请所要解决的技术问题是提供一种检测异常数据区间的数据挖 掘方法及系统,解决了现有技术中异常数据数据挖掘都是进行离群点或 孤立点的检测,对于具有时间或空间连续性的数据,也只能检测到异常 的独立数据点,不能检测到异常的数据区间的问题。

其具体方案如下:

一种检测异常数据区间的数据挖掘方法,确定区间宽度和步进长度, 以区间步进的方式遍历目标数据,该方法包括:

获取当前数据区间的最大值和最小值;

计算所述当前数据区间的偏移量,其中,所述当前数据区间的偏移量 为所述当前数据区间的最大值和最小值的差值;

获取遍历完的数据和所述当前数据区间中所有数据的当前整体最大 值和当前整体最小值;

计算所述目标数据的当前整体偏移量,其中,所述目标数据的当前整 体偏移量为所述当前整体最大值和当前整体最小值的差值;

计算所述当前数据区间的偏移率,其中,所述当前数据区间的偏移率 为所述当前数据区间的偏移量与所述当前整体偏移量的比值;

将所述当前数据区间的偏移率与额定偏移率进行比较;

当所述当前数据区间的偏移率大于所述额定偏移率时,确定所述当前 数据区间中最大值数据点和最小值数据点、以及位于所述最大值数据点 和最小值数据点之间的数据点均为异常数据点,所述最大值数据点和所 述最小值数据点组成的区间为异常数据区间;

以所述步进长度和区间宽度进行区间步进,将下一个数据区间作为当 前数据区间,重复所述获取当前数据区间的最大值和最小值,直到遍历 完所述目标数据,得到所有的异常数据点、异常数据区间和所述目标数 据的整体最大值和整体最小值。

上述的方法,可选的,所述确定当前数据区间中最大值数据点和最小 值数据点、以及位于所述最大值数据点和最小值数据点之间的数据点均 为异常数据点之后,还包括:

对所述异常数据点进行分类;

其中,所述对异常数据点进行分类,包括:

比较所述当前异常数据区间中第一个异常数据点和第二个异常数据 点的大小;

当所述第一个异常数据点小于所述第二个异常数据点时,确定所述第 一个异常数据点为异常增大的起始数据点,所述当前异常数据区间中的 最后一个异常数据点为异常增大的结束数据点;

当所述第一个异常数据点大于所述第二个异常数据点时,确定所述第 一个异常数据点为异常减小的起始数据点,所述当前异常数据区间中的 最后一个异常数据点为异常减小的结束数据点。

上述的方法,可选的,还包括:

以遍历的方式检测所有异常数据点,祛除不符合预设要求的异常数据 点,确定最终的异常数据点;

其中,所述以遍历的方式检测所有异常数据点,祛除不符合预设要求 的异常数据点,确定最终的异常数据点,包括:

判断当前异常数据点的位置是否在所述目标数据的整体最大值和整 体最小值的位置之后;

当所述当前异常数据点的位置在所述目标数据的整体最大值和整体 最小值的位置之后时,判断所述当前异常数据点与上一个类别相同的异 常数据点之间的距离与所述步进长度之间的关系;

当所述当前异常数据点与上一个类别相同的异常数据点之间的距离 大于所述步进长度时,确定所述当前异常数据点为异常点;

当所述当前异常数据点与上一个类别相同的异常数据点之间的距离 等于所述步进长度时,将所述当前异常数据点的类别添加到所述上一个 类别相同的异常数据点中,并删除所述当前异常数据点;

当所述当前异常数据点与上一个类别相同的异常数据点之间的距离 小于所述步进长度时,在所述当前异常数据点所属类别中,祛除一个无 效的异常数据点;

将下一个异常数据点作为当前异常数据点,重复上述过程,直到遍历 完所有的异常数据点。

上述的方法,可选的,还包括:

当所述当前异常数据点的位置不在所述目标数据的整体最大值和整 体最小值的位置之后时,判断所述当前异常数据点所属的异常数据区间 的最大值与最小值的差值是否大于所述目标数据的整体额定偏差值;

当所述当前异常数据点所属的异常数据区间的最大值与最小值的差 值大于所述目标数据的整体额定偏差值时,判断所述当前异常数据点与 上一个类别相同的异常数据点之间的距离与所述步进长度之间的关系;

当所述当前异常数据点所属的异常数据区间的最大值与最小值的差 值不大于所述目标数据的整体额定偏差值时,确定所述当前异常数据点 为无效异常数据点,祛除所述当前异常数据点;

其中,所述目标数据的整体额定偏差值为所述目标数据的整体最大值 和整体最小值的差值与所述额定偏移率的乘积。

上述的方法,可选的,所述在所述当前异常数据点所属类别中,祛除 一个无效的异常数据点,包括:

判断所述当前异常数据点的类别;

当所述当前异常数据点为异常增大的起始数据点时,保留序列小的异 常数据点,删除序列大的异常数据点;

当所述当前异常数据点为异常增大的结束数据点时,保留序列大的异 常数据点,删除序列小的异常数据点;

当所述当前异常数据点为异常减小的起始数据点时,保留序列小的异 常数据点,删除序列大的异常数据点;

当所述当前异常数据点为异常减小的结束数据点时,保留序列大的异 常数据点,删除序列小的异常数据点。

一种检测异常数据区间的数据挖掘系统,该系统包括:

第一确定单元,用于确定区间宽度和步进长度,以区间步进的方式遍 历目标数据;

第一获取单元,用于获取当前数据区间的最大值和最小值;

第一计算单元,用于计算所述当前数据区间的偏移量,其中,所述当 前数据区间的偏移量为所述当前数据区间的最大值和最小值的差值;

第二获取单元,用于获取遍历完的数据和所述当前数据区间中所有数 据的当前整体最大值和当前整体最小值;

第二计算单元,用于计算所述目标数据的当前整体偏移量,其中,所 述目标数据的当前整体偏移量为所述当前整体最大值和当前整体最小值 的差值;

第三计算单元,用于计算所述当前数据区间的偏移率,其中,所述当 前数据区间的偏移率为所述当前数据区间的偏移量与所述当前整体偏移 量的比值;

第一比较单元,用于将所述当前数据区间的偏移率与额定偏移率进行 比较;

第二确定单元,用于当所述当前数据区间的偏移率大于所述额定偏移 率时,确定所述当前数据区间中最大值数据点和最小值数据点、以及位 于所述最大值数据点和最小值数据点之间的数据点均为异常数据点,所 述最大值数据点和所述最小值数据点组成的区间为异常数据区间;

步进单元,用于以所述步进长度和区间宽度进行区间步进,将下一个 数据区间作为当前数据区间,重复所述获取当前数据区间的最大值和最 小值,直到遍历完所述目标数据,得到所有的异常数据点、异常数据区 间和所述目标数据的整体最大值和整体最小值。

上述的系统,可选的,还包括:

分类单元,用于对所述异常数据点进行分类;

其中,所述分类单元,包括:

第二比较单元,用于比较所述当前异常数据区间中第一个异常数据点 和第二个异常数据点的大小;

第三确定单元,用于当所述第一个异常数据点小于所述第二个异常数 据点时,确定所述第一个异常数据点为异常增大的起始数据点,所述当 前异常数据区间中的最后一个异常数据点为异常增大的结束数据点;

第四确定单元,用于当所述第一个异常数据点大于所述第二个异常数 据点时,确定所述第一个异常数据点为异常减小的起始数据点,所述当 前异常数据区间中的最后一个异常数据点为异常减小的结束数据点。

上述的系统,可选的,还包括:

检测单元,用于以遍历的方式检测所有异常数据点,祛除不符合预设 要求的异常数据点,确定最终的异常数据点;

其中,所述检测单元,包括:

第一判断单元,用于判断当前异常数据点的位置是否在所述目标数 据的整体最大值和整体最小值的位置之后;

第二判断单元,用于当所述当前异常数据点的位置在所述目标数据的 整体最大值和整体最小值的位置之后时,判断所述当前异常数据点与上 一个类别相同的异常数据点之间的距离与所述步进长度之间的关系;

第五确定单元,用于当所述当前异常数据点与上一个类别相同的异常 数据点之间的距离大于所述步进长度时,确定所述当前异常数据点为异 常点;

添加单元,用于当所述当前异常数据点与上一个类别相同的异常数据 点之间的距离等于所述步进长度时,将所述当前异常数据点的类别添加 到所述上一个类别相同的异常数据点中,并删除所述当前异常数据点;

祛除单元,用于当所述当前异常数据点与上一个类别相同的异常数据 点之间的距离小于所述步进长度时,在所述当前异常数据点所属类别中, 祛除一个无效的异常数据点;

第六确定单元,用于将下一个异常数据点作为当前异常数据点,重复 上述过程,直到遍历完所有的异常数据点。

上述的系统,可选的,还包括:

第三判断单元,用于当所述当前异常数据点的位置不在所述目标数据 的整体最大值和整体最小值的位置之后时,判断所述当前异常数据点所 属的异常数据区间的最大值与最小值的差值是否大于所述目标数据的整 体额定偏差值;

第四判断单元,用于当所述当前异常数据点所属的异常数据区间的最 大值与最小值的差值大于所述目标数据的整体额定偏差值时,判断所述 当前异常数据点与上一个类别相同的异常数据点之间的距离与所述步进 长度之间的关系;

第七确定单元,用于当所述当前异常数据点所属的异常数据区间的最 大值与最小值的差值不大于所述目标数据的整体额定偏差值时,确定所 述当前异常数据点为无效异常数据点,祛除所述当前异常数据点;

其中,所述目标数据的整体额定偏差值为所述目标数据的整体最大值 和整体最小值的差值与所述额定偏移率的乘积。

上述的系统,可选的,所述祛除单元,包括:

第五判断单元,用于判断所述当前异常数据点的类别;

第一处理单元,用于当所述当前异常数据点为异常增大的起始数据点 时,保留序列小的异常数据点,删除序列大的异常数据点;

第二处理单元,用于当所述当前异常数据点为异常增大的结束数据点 时,保留序列大的异常数据点,删除序列小的异常数据点;

第三处理单元,用于当所述当前异常数据点为异常减小的起始数据点 时,保留序列小的异常数据点,删除序列大的异常数据点;

第四处理单元,用于当所述当前异常数据点为异常减小的结束数据点 时,保留序列大的异常数据点,删除序列小的异常数据点。

本申请提供的一种检测异常数据区间的数据挖掘方法中,在对目标数 据进行数据挖掘之前,需要确定区间宽度和步进长度,在对目标数据进 行数据挖掘的过程中,以区间步进的方式遍历目标数据,动态逐步获取 目标数据的最大偏移量,确定当前数据区间的偏移率,将当前数据区间 的偏移率与额定偏移率进行比较,当所述当前数据区间的偏移率大于所 述额定偏移率时,确定所述当前数据区间中的异常数据点以及异常数据 区间;当遍历完所有的目标数据后,得到所有的异常数据点、异常数据 区间和所述目标数据的整体最大值和整体最小值,能够准确、快速的检 测目标数据中的异常区间。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描 述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图 仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出 创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本申请的一种检测异常数据区间的数据挖掘方法实施例的流 程图;

图2是本申请进行数据挖掘的目标数据;

图3是本申请的一种检测异常数据区间的数据挖掘方法另一实施例 的流程图;

图4是本申请的一种检测异常数据区间的数据挖掘方法又一实施例 的流程图;

图5是本申请的一种检测异常数据区间的数据挖掘系统实施例的结 构示意图;

图6是本申请的一种检测异常数据区间的数据挖掘方法另一实施例 的结构示意图;

图7是本申请的一种检测异常数据区间的数据挖掘方法又一实施例 的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案 进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实 施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术 人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本 申请保护的范围。

参考图1,示出了本申请一种检测异常数据区间的数据挖掘方法实施 例的流程图,可以包括以下步骤:

步骤S101:获取当前数据区间的最大值和最小值。

本申请中,采用区间步进的方式遍历目标数据,那么在进行异常数据 区间的数据挖掘之前,需要确定数据挖掘过程中采用的区间宽度和步进 长度。

本申请中可以取区间的宽度为W,W≥2,并且W越大,异常区间的 检测越准确,但效率会越低。

步进长度D,1≤D<W/2,D越大,异常区间的检测越准确,但效率 会越低。

区间宽度W和步进长度D可依据数据量和需要自行调整。

以区间宽度为5,步进长度为2进行异常数据区间的数据挖掘时,如 图2所示,当前数据区间为第一个数据区间,第一数据区间中的5个数 据分别为1239、23423、2323、2434和23243,这5个数据中的最大值和 最小值分别为23243和1239,并记录最大值和最小值的位置。

本申请中,后区间为上一次的区间和下一次的区间的公共子集,后区 间的长度为3,后区间中的数据为2323、2434和23243,后区间中的最 大值和最小值分别为23243和2323。

步骤S102:计算所述当前数据区间的偏移量,其中,所述当前数据 区间的偏移量为所述当前数据区间的最大值和最小值的差值。

利用得到的最大值减去最小值23243-1239,即可得到当前数据区间 的偏移量。

步骤S103:获取遍历完的数据和所述当前数据区间中所有数据的当 前整体最大值和当前整体最小值。

当所述当前数据区间为第一个数据区间时,从这5个数据中确定的整 体最大值为23243,整体最小值为1239,并记录整体最大值和整体最小 值的位置。

步骤S104:计算所述目标数据的当前整体偏移量,其中,所述目标 数据的当前整体偏移量为所述当前整体最大值和当前整体最小值的差 值。

一般获取整体偏移量的方式为数据统计,而本申请中获取整体偏移量 的方式为动态逐步获取最大偏移量。

利用整体最大值减去整体最小值23243-1239,即可得到当前的整体 最大值和当前整体最小值。

步骤S105:计算所述当前数据区间的偏移率,其中,所述当前数据 区间的偏移率为所述当前数据区间的偏移量与所述当前整体偏移量的比 值。

本申请中,定义偏移率为当前数据区间的偏移率为所述当前数据区间 的偏移量与所述当前整体偏移量的比值。

(23243-1239)/(23243-1239)=1,得到第一个数据区间的偏移率。

步骤S106:将所述当前数据区间的偏移率与额定偏移率进行比较。 当所述当前数据区间的偏移率大于所述额定偏移率时,执行步骤S107: 确定所述当前数据区间中最大值数据点和最小值数据点、以及位于所述 最大值数据点和最小值数据点之间的数据点均为异常数据点,所述最大 值数据点和所述最小值数据点组成的区间为异常数据区间。当所述当前 数据区间的偏移率小于所述额定偏移率时,说明当前数据区间中的数据 不存在异常。

本申请中,设定额定偏移率为0.9,(23243-1239)/(23243-1239) =1>0.9,说明当前数据区间存在异常数据,将当前数据区间中的最大值数 据点23243、最小值数据点1239、以及位于所述最大值数据点和最小值 数据点之间的数据点23423、2323和2434均为异常数据点,最大值数据 点23243和最小值数据点1239组成的区间则为异常数据区间。

步骤S108:判断是否遍历完所有数据区间,当没有遍历完所有数据 区间时,执行步骤S109:以所述步进长度和区间宽度进行区间步进,将 下一个数据区间作为当前数据区间,重复上述数据挖掘过程,直到遍历 完所述目标数据,得到所有的异常数据点、异常数据区间和所述目标数 据的整体最大值和整体最小值。

第一个数据区间检测完之后,以2为步进长度进行第二个数据区间的 检测,第二个数据区间中的5个数据分别为2323、2434、23243、34354 和23123,将第二个数据区间中的第4个数据和第5个数据分别和后区间 中的最大值和最小值进行比较,确定第二个数据区间的最大值和最小值, 分别为34354和2323。

从第一个数据区间和第二个数据区间中所有数据中,确定当前整体最 大值和当前整体最小值,分别为34354和1239。

当前后区间的最大值和最小值分别为34354和23123。

计算的第二个数据区间的偏移率为(34354-2323)/(34354-1239) =0.97>0.9,则确定第二个数据区间中的最小值数据点2323、最大值数据 点34354、以及位于最大值数据点和最小值数据点之间的2434和23243 均为异常数据点,最小值数据点2323和最大值数据点34354组成的区间 异常数据区间。

依此类推,重复上述对当前数据区间的检测过程,直到遍历完所有目 标数据,得到所有的异常数据点、异常数据区间和所述目标数据的整体 最大值和整体最小值。

本申请提供的一种检测异常数据区间的数据挖掘方法中,在对目标数 据进行数据挖掘之前,需要确定区间宽度和步进长度,在对目标数据进 行数据挖掘的过程中,以区间步进的方式遍历目标数据,动态逐步获取 目标数据的最大偏移量,确定当前数据区间的偏移率,将当前数据区间 的偏移率与额定偏移率进行比较,当所述当前数据区间的偏移率大于所 述额定偏移率时,确定所述当前数据区间中的异常数据点以及异常数据 区间;当遍历完所有的目标数据后,得到所有的异常数据点、异常数据 区间和所述目标数据的整体最大值和整体最小值,能够准确、快速的检 测目标数据中的异常区间。

本申请中,所述确定所述当前数据区间中最大值数据点和最小值数据 点、以及位于所述最大值数据点和最小值数据点之间的数据点均为异常 数据点,所述最大值数据点和所述最小值数据点组成的区间为异常数据 区间之后,还包括:对所述异常数据点进行分类,具体过程为:

比较所述当前异常数据区间中第一个异常数据点和第二个异常数据 点的大小。

当所述第一个异常数据点小于所述第二个异常数据点时,确定所述第 一个异常数据点为异常增大的起始数据点,所述当前异常数据区间中的 最后一个异常数据点为异常增大的结束数据点。

当所述第一个异常数据点大于所述第二个异常数据点时,确定所述第 一个异常数据点为异常减小的起始数据点,所述当前异常数据区间中的 最后一个异常数据点为异常减小的结束数据点。

针对第一个异常数据区间中确定的异常数据点而言,第一个异常数据 点为1239,将第一个异常数据点与第二个异常数据23423进行比较,由 于1239<23423,则确定1239为异常增大的起始数据点,那么相应的位于 第一个异常数据区间中最后一个异常数据点23243为异常增大的结束数 据点。

通过上述方法,对检测到的所有的异常数据点均进行分类,确定每个 异常数据点所属的类别。

参考图2,示出了本申请一种检测异常数据区间的数据挖掘方法另一 实施例的流程图,在上个实施例中检测到所有的异常数据点及异常数据 区间后,在本实施例中,以遍历的方式检测所有异常数据点,祛除不符 合预设要求的异常数据点,确定最终的异常数据点。

具体过程为:

步骤S201:判断当前异常数据点的位置是否在所述目标数据的整体 最大值和整体最小值的位置之后。

当所述当前异常数据点的位置在所述目标数据的整体最大值和整体 最小值的位置之后时,执行步骤S202,当所述当前异常数据点的位置不 在所述目标数据的整体最大值和整体最小值的位置之后时,执行步骤 S206。

步骤S202:判断所述当前异常数据点与上一个类别相同的异常数据 点之间的距离与所述步进长度之间的关系。

若当前异常数据点为异常增大的起始数据点,则确定所述当前异常数 据点与上一个异常增大的起始数据点之间的距离,在上个实施例中得到 的异常数据点均携带有序列号,通过当前异常数据点的序列号和上一个 类别相同的异常数据点的序列号,可以确定他们之间的距离,将确定的 序列号之间的距离与区间步进的步进长度进行比较。

如第一个异常数据区间中的异常增大的起始数据点的序号为1和第 二个数据区间中的异常增大的起始数据点的序号为3,将序号为3的异常 数据点作为当前异常数据点,那么这两个异常数据点的距离为2。

步骤S203:当所述当前异常数据点与上一个类别相同的异常数据点 之间的距离大于所述步进长度时,确定所述当前异常数据点为异常点。

步骤S204:当所述当前异常数据点与上一个类别相同的异常数据点 之间的距离等于所述步进长度时,将所述当前异常数据点的类别添加到 所述上一个类别相同的异常数据点中,并删除所述当前异常数据点。

由于这两个异常数据点的距离等于步进长度,那么删除序号为3的当 前异常数据点。

步骤S205:当所述当前异常数据点与上一个类别相同的异常数据点 之间的距离小于所述步进长度时,在所述当前异常数据点所属类别中, 祛除一个无效的异常数据点。

将下一个异常数据点作为当前异常数据点,重复上述过程,直到遍历 完所有的异常数据点。

步骤S206:判断所述当前异常数据点所属的异常数据区间的最大值 与最小值的差值是否大于所述目标数据的整体额定偏差值。

其中,所述目标数据的整体额定偏差值为所述目标数据的整体最大值 和整体最小值的差值与所述额定偏移率的乘积。

当所述当前异常数据点所属的异常数据区间的最大值与最小值的差 值大于所述目标数据的整体额定偏差值时,执行步骤S202;当所述当前 异常数据点所属的异常数据区间的最大值与最小值的差值不大于所述目 标数据的整体额定偏差值时,执行步骤S207。

步骤S207:确定所述当前异常数据点为无效异常数据点,祛除所述 当前异常数据点。

本申请中,对上述实施例确定出的异常数据点及异常数据区间进行进一 步的检测,识别第一步检测出的异常区间,祛除不符合额定偏移量的数据区 间,保留连续区间的起始数据和结束数据,祛除连续区间的重复数据。提高 了识别异常数据的准确性,并准确的识别了异常数据区间。

参考图3,示出了本申请一种检测异常数据区间的数据挖掘方法另一 实施例的流程图,在所述当前异常数据点所属类别中,祛除一个无效的 异常数据点,包括:

步骤S301:判断所述当前异常数据点的类别。

步骤S302:当所述当前异常数据点为异常增大的起始数据点时,保 留序列小的异常数据点,删除序列大的异常数据点。

步骤S303:当所述当前异常数据点为异常增大的结束数据点时,保 留序列大的异常数据点,删除序列小的异常数据点。

步骤S304:当所述当前异常数据点为异常减小的起始数据点时,保 留序列小的异常数据点,删除序列大的异常数据点。

步骤S305:当所述当前异常数据点为异常减小的结束数据点时,保 留序列大的异常数据点,删除序列小的异常数据点。

与上述本申请一种检测异常数据区间的数据挖掘方法实施例1所提 供的方法相对应,参见图4,本申请还提供了一种检测异常数据区间的数 据挖掘系统实施例1,在本实施例中,该系统包括:

第一确定单元401,用于确定区间宽度和步进长度,以区间步进的方 式遍历目标数据。

第一获取单元402,用于获取当前数据区间的最大值和最小值。

第一计算单元403,用于计算所述当前数据区间的偏移量,其中,所 述当前数据区间的偏移量为所述当前数据区间的最大值和最小值的差 值。

第二获取单元404,用于获取遍历完的数据和所述当前数据区间中所 有数据的当前整体最大值和当前整体最小值。

第二计算单元405,用于计算所述目标数据的当前整体偏移量,其中, 所述目标数据的当前整体偏移量为所述当前整体最大值和当前整体最小 值的差值。

第三计算单元406,用于计算所述当前数据区间的偏移率,其中,所 述当前数据区间的偏移率为所述当前数据区间的偏移量与所述当前整体 偏移量的比值。

第一比较单元407,用于将所述当前数据区间的偏移率与额定偏移率 进行比较。

第二确定单元408,用于当所述当前数据区间的偏移率大于所述额定 偏移率时,确定所述当前数据区间中最大值数据点和最小值数据点、以 及位于所述最大值数据点和最小值数据点之间的数据点均为异常数据 点,所述最大值数据点和所述最小值数据点组成的区间为异常数据区间。

步进单元409,用于以所述步进长度和区间宽度进行区间步进,将下 一个数据区间作为当前数据区间,重复上述数据挖掘过程,直到遍历完 所述目标数据,得到所有的异常数据点、异常数据区间和所述目标数据 的整体最大值和整体最小值。

该系统包括:分类单元,用于对所述异常数据点进行分类。

其中,所述分类单元,包括:

第二比较单元,用于比较所述当前异常数据区间中第一个异常数据点 和第二个异常数据点的大小。

第三确定单元,用于当所述第一个异常数据点小于所述第二个异常数 据点时,确定所述第一个异常数据点为异常增大的起始数据点,所述当 前异常数据区间中的最后一个异常数据点为异常增大的结束数据点。

第四确定单元,用于当所述第一个异常数据点大于所述第二个异常数 据点时,确定所述第一个异常数据点为异常减小的起始数据点,所述当 前异常数据区间中的最后一个异常数据点为异常减小的结束数据点。

参见图5,本申请还提供了一种检测异常数据区间的数据挖掘系统另 一实施例,在本实施例中,该系统还包括检测单元,用于以遍历的方式 检测所有异常数据点,祛除不符合预设要求的异常数据点,确定最终的 异常数据点。

其中,所述检测单元包括:

第一判断单元501,用于判断当前异常数据点的位置是否在所述目标 数据的整体最大值和整体最小值的位置之后。

第二判断单元502,用于当所述当前异常数据点的位置在所述目标数 据的整体最大值和整体最小值的位置之后时,判断所述当前异常数据点 与上一个类别相同的异常数据点之间的距离与所述步进长度之间的关 系。

第五确定单元503,用于当所述当前异常数据点与上一个类别相同的 异常数据点之间的距离大于所述步进长度时,确定所述当前异常数据点 为异常点。

添加单元504,用于当所述当前异常数据点与上一个类别相同的异常 数据点之间的距离等于所述步进长度时,将所述当前异常数据点的类别 添加到所述上一个类别相同的异常数据点中,并删除所述当前异常数据 点。

祛除单元505,用于当所述当前异常数据点与上一个类别相同的异常 数据点之间的距离小于所述步进长度时,在所述当前异常数据点所属类 别中,祛除一个无效的异常数据点。

第三判断单元506,用于当所述当前异常数据点的位置不在所述目标 数据的整体最大值和整体最小值的位置之后时,判断所述当前异常数据 点所属的异常数据区间的最大值与最小值的差值是否大于所述目标数据 的整体额定偏差值。

第四判断单元507,用于当所述当前异常数据点所属的异常数据区间 的最大值与最小值的差值大于所述目标数据的整体额定偏差值时,判断 所述当前异常数据点与上一个类别相同的异常数据点之间的距离与所述 步进长度之间的关系。

第七确定单元508,用于当所述当前异常数据点所属的异常数据区间 的最大值与最小值的差值不大于所述目标数据的整体额定偏差值时,确 定所述当前异常数据点为无效异常数据点,祛除所述当前异常数据点;

其中,所述目标数据的整体额定偏差值为所述目标数据的整体最大值 和整体最小值的差值与所述额定偏移率的乘积。

第六确定单元509,用于将下一个异常数据点作为当前异常数据点, 重复上述过程,直到遍历完所有的异常数据点。

参见图6,本申请还提供了一种检测异常数据区间的数据挖掘系统另 一实施例,在本实施例中,所述祛除单元,包括:

第五判断单元601,用于判断所述当前异常数据点的类别。

第一处理单元602,用于当所述当前异常数据点为异常增大的起始数 据点时,保留序列小的异常数据点,删除序列大的异常数据点。

第二处理单元603,用于当所述当前异常数据点为异常增大的结束数 据点时,保留序列大的异常数据点,删除序列小的异常数据点。

第三处理单元604,用于当所述当前异常数据点为异常减小的起始数 据点时,保留序列小的异常数据点,删除序列大的异常数据点。

第四处理单元605,用于当所述当前异常数据点为异常减小的结束数 据点时,保留序列大的异常数据点,删除序列小的异常数据点。

综上所述,本申请使用数据区间步进的方式进行数据遍历,又动态的获 取数据整体的最大偏移量,通过判断区间的偏移率是否大于额定的偏移率初 步确定异常区间。通过遍历初步确定的异常区间,确定异常区间的准确范围, 祛除无效的结果。

该方法能够准确、快速的检测大数据的异常区间,并且支持多线程、多 进程,二次检测异常区间。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每 个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相 同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实 施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分 说明即可。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系 术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不 一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺 序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他 性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅 包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为 这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况 下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的 过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然, 在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了 解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样 的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可 以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质 中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设 备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实 施例或者实施例的某些部分所述的方法。

以上对本申请所提供的一种检测异常数据区间的数据挖掘方法及系 统进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式 进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核 心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具 体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不 应理解为对本申请的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号