首页> 中国专利> 基于聚类的大数据属性重要性和辨识度的预警方法及系统

基于聚类的大数据属性重要性和辨识度的预警方法及系统

摘要

本发明公开了一种基于聚类的大数据属性重要性和辨识度的预警方法及系统。本方法为:首先根据时间段划分样本,其次使用抽样->聚类->计算降维指标进行大数据降维,将聚类获得的簇作为已知的标签,再次针对降维后的数据,使用聚类算法对样本聚类,将聚类结果作为分类标签,使用属性重要性和辨识度提取方法,提取由数据本身决定的属性对分类的影响力”标,包括:属性值辨识度、属性辨识度、属性值重要性、属性重要性;最后,将各个时间段的四项指标分别形成时间序列,使用拐点分析方法进行时间序列的研究,可以做出不同层面的异常值预警,预警效果好。

著录项

  • 公开/公告号CN104123368A

    专利类型发明专利

  • 公开/公告日2014-10-29

    原文格式PDF

  • 申请/专利权人 中国软件与技术服务股份有限公司;

    申请/专利号CN201410356010.9

  • 发明设计人 王电;陈庆彬;黄煜可;

    申请日2014-07-24

  • 分类号G06F17/30(20060101);

  • 代理机构北京君尚知识产权代理事务所(普通合伙);

  • 代理人余长江

  • 地址 100081 北京市海淀区学院南路55号(中软大厦)

  • 入库时间 2023-12-17 01:34:31

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-06-13

    授权

    授权

  • 2014-12-03

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140724

    实质审查的生效

  • 2014-10-29

    公开

    公开

说明书

技术领域

本发明涉及一种时间序列预警方法,尤其涉及一种基于聚类的大数据属性重要性和辨识 度的时间序列预警系统。

背景技术

在现实生活中,我们经常会面对具有一定周期性的复杂时间序列数据,在每个时间点对 应的截面上,都对应一组样本数据,各个时间点之间的样本数据没有必然的联系,从而不是 公知的面板数据,甚至各时间点的样本数量都不具有相等关系。我们希望在对这些数据缺乏 足够了解的情况下,确定每个截面上数据之间的相似性,判断不同属性对这种相似性的影响 程度,以及这些蕴含在数据中的关系在时间序列上如何传递和变化,并由此作出异常情况的 预警。

这样的周期时间序列数据十分复杂,但在现实生活中却非常常见。案例1:某超市在近 一年的时间里,持续记录了每天中每个消费者的购物篮数据,每天的消费者数量显然不固定。 但由于会员卡数据缺失,我们不能针对每个消费者建立时间序列模型,再分析其消费习惯的 时间序列性质并作出异常预警,我们只能并希望从整体上获知消费习惯的变化,特别是购物 篮中产品对超市营利能力的重要程度的变化,并对产品采购等经营活动作出异常预警和管理 建议。案例2:某城市统计了近五年来所有高三学生参加高考的各科成绩,显然每年参加高 考的学生人数不固定,且绝大部分学生只参加一次高考,我们不能针对每个学生建立时间序 列模型,再分析其各科成绩的时间序列性质并作出异常预警,我们只能并希望从整体上获知 学生高考情况的变化,提供预警并对高考改革提供参考意见,这里不存在明显的周期,我们 可以按照历史数据的数量确定一个合适的周期,或者以一为周期做拐点分析。

由于我们对数据的了解非常缺乏,我们常常需要依据经验、主观地将属性进行分类,一 般进行后续的研究。例如,在案例1中,我们将消费者按照消费金额分为高、中、低三类, 或者按照消费者年龄分为老、中、青三类,再比较各个分类的众多数据的均值、方差等指标 随时间序列的变化,由此作出预警。这种分类方法存在两大缺陷:其一,严重依赖于主观的 分类,使分析结果丧失客观性;其二,将众多数据压缩成均值、方差等指标,丧失了大量的 信息,使分析结果不能充分反映情况,预警效果差强人意。

对具有一定周期性的复杂时间序列数据做出预警时,还会遇到“大数据”的问题。随着 信息技术的高速发展,人们积累的数据量急剧增长,如何从海量的数据中提取有用的知识成 为当务之急。经过清洗的已知标签样本数据汇总到中央数据库。由于样本量巨大,形成了维 数大、规模大、复杂性大的大数据形态,要挖掘其中有意义的知识和内容以指导实际生产和 具体应用,需要首先进行降维处理,即维数约简,它一方面可以解决“维数灾难”,缓解大数 据中“信息丰富但知识贫乏”的问题,降低计算的复杂度;另一方面可以引导人们更好地认 识和理解数据。数据降维的方法很多,例如:根据数据本身的特性,可以分为线性降维和非 线性降维两种;根据是否考虑和利用数据的监督信息,可以分为无监督降维、有监督降维和 半监督降维三种;根据是否需要保持数据的结构,可以分为全局保持降维、局部保持降维和 全局与局部保持一致降维等。

发明内容

针对现有技术中存在的技术问题,本发明的目的在于提供一种基于聚类的大数据属性重 要性和辨识度的时间序列预警方法和系统。

我们首先根据实际需要选择时间段,根据时间段划分样本,以便进行比较。其次使用“抽 样->聚类->计算降维指标”的流程进行大数据降维,将聚类获得的簇作为已知的标签,采用完 全客观的算法来选择对样本的已知标签具有较大影响力的维度。也就是说,这些在降维中被 保留下来的维度不是主观确定的,不依赖于经验模型。再次针对降维后的数据,使用聚类分 析(clustering)算法将样本进行聚类,获得数据客观蕴含的相似性,再将聚类结果(簇,cluster) 作为分类标签,使用属性重要性和辨识度提取方法,提取由数据本身决定的“属性对分类的 影响力”指标,这些指标包括:属性值辨识度、属性辨识度、属性值重要性、属性重要性。 相比而言,在数据挖掘(Data Mining)的决策树(Decision Tree)算法中,我们主要使用信息 增益、增益率、Gini指标来衡量属性对分类的影响力,它们分别应用于三种最常见的决策树 算法:ID3、C4.5、CART。本发明可以获得比上述传统算法更加全面的属性重要程度信息。最 后,将各个时间段的四项指标分别形成时间序列,使用拐点分析方法进行时间序列的研究, 可以做出不同层面的异常值预警,预警效果好。

本发明的技术方案为:

一种基于聚类的大数据属性重要性和辨识度的预警方法,其步骤为:

1)中央服务器从各终端服务器采集样本数据,并按照时间段对样本数据进行划分,每个 时间段对应一样本数据集;

2)对于每一时间段的样本数据集,从中抽取若干样本构建一抽样样本集合,并对其进行 聚类分析,得到若干簇;将聚类得到的簇作为样本的标签,对样本进行标注,然后根 据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识 度、属性辨识度和或属性值重要性、属性重要性;

3)分别根据属性值辨识度、属性辨识度和或属性值重要性、属性重要性对属性进行排序, 选取若干属性作为大数据降维后保留的属性;

4)对属性降维后的全体样本数据进行聚类,将聚类得到的簇作为样本的标签,对样本进 行标注;

5)计算步骤4)中已标注样本每一属性i的设定监控指标,然后根据属性i的每一所选监 控指标在各个时间段的取值构建该属性i的各监控指标常态区域;所述设定监控指标 为属性值辨识度、和或属性辨识度、和或属性值重要性、和或属性重要性;

6)计算该属性i当前时刻的设定监控指标的指标值,如果某一项设定指标值超出相应的 常态区域,则对其进行监控并计算该项监控指标下一时刻的指标值,如果继续超出相 应的常态区域,则对该属性i的该项指监控标进行预警;

其中,属性值辨识度的计算方法为:选取样本一属性i的一属性值a,计算具有该属 性值a的样本属于标签j的条件概率值,以及未增加该属性值条件时样本属于该标签j的 概率值;将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值辨 识度;将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性值 辨识度;

属性辨识度的计算方法为:根据属性i所有属性值辨识度计算该属性i的属性辨识度;

属性值重要性的计算方法为:将样本属性i取属性值a时属于标签j的样本量乘以该 属性值a对于该标签j的属性辨识度,得到该属性值a对于该标签j的属性值重要性;将 该属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要性;

属性重要性的计算方法为:根据属性i所有属性值重要性计算该属性i的属性重要性。 进一步的,对该属性i所有属性值的属性值辨识度的平方平均数作为该属性i的属性辨识 度。

进一步的,对该属性i所有属性值的属性值重要性的平方平均数作为该属性i的属性重要 性。

进一步的,采用基于条件概率和贝叶斯算法计算所述辨识度。

本发明的系统如图2所示,其包括:

1.数据降维模块

对采集的样本进行抽样和聚类分析,得到若干簇,将聚类得到的簇作为样本的标签,对 样本进行标注。计算标注样本每一属性的属性值辨识度、属性辨识度以及属性值重要性、属 性重要性,提取由数据本身决定的“属性对相似性的影响力”指标;然后根据指标计算结果 对属性排序;选取排序靠前的属性对样本数据进行降维。

本发明定义了四个相互关联但又互不相同的影响力指标:属性值辨识度、属性辨识度、 属性值重要性、属性重要性,从而更加全面准确的刻画“属性对分类的影响力”大小。下面 简要介绍这四个指标的概念,具体计算方法详见下文“具体实施方式”部分。

(1)属性值辨识度和属性辨识度

我们常说的“辨识度”有两种理解:第一,拥有该属性的样本是被辨认出来的能力,一 个歌声辨识度高的歌手只需要演唱一句就可以让大家认出他是谁,一个相貌辨识度高的演员 即使穿着平常走在人群中也可以被大家发现。第二,是拥有该属性的样本被准确分类的能力, 例如,某影视基地同时开拍一部清宫剧和一部现代剧,面对一个脑后垂着长辫子的男演员, 即使他没有说明自己属于哪个剧组,也基本可以断定他属于清宫剧剧组,可见“性别=男、发 型=长辫子”的属性值对“剧组”这一分类的辨识度很高。本专利定义的属性值辨识度和属性 辨识度采用的是后一种概念。

(2)属性值重要性和属性重要性

属性辨识度概念没有考虑具有该属性的样本量,为了进一步平衡属性值的辨别能力和对 应的样本量,在“辨识度”概念的基础上定义“重要性”概念。粗略的说,重要性等于辨识 度乘以样本量。

(3)“辨识度”和“重要性”

我们选择“辨识度”和“重要性”两个指标作为“属性对分类的影响力”的判断指标, 是因为这两个指标在实际操作中具有完全不同的意义。

考虑青少年犯罪影响因素案例,如果通过聚类分析获得两个簇,分别代表“暴力犯罪” 和“非暴力犯罪”。其中,青少年“是否吸毒=是”的属性值对“暴力犯罪”的簇具有极高的 辨识度,也就是吸毒的青少年如果参与犯罪,这主要是暴力犯罪,可见应该注意重点排查、 干预这部分青少年的行为,采取针对其个人的预防监控措施。然而,由于一万个青少年中吸 毒的样本非常少,这个属性值的重要性并不大,重要性较高的属性值可能是“是否打架斗殴= 是”,该的属性值涉及的样本较多,更适合采用大面积宣传教育的方式进行预防干预,从而提 高干预效率。

本发明可以建立在任何一种公知的聚类分析算法结果之上,提取由数据本身决定的“属 性对相似性的影响力”指标,这些指标包括:属性值辨识度、属性辨识度、属性值重要性、 属性重要性。本发明将聚类分析获得的簇作为已知的分类标签,由此,“属性对相似性的影响 力”指标等价于“属性对已知标签的影响力”指标。

这是因为,使用聚类分析方法让数据通过无监督学习生成若干“簇”,这些簇是基于距离 或相似度来确定的,满足簇中的对象彼此相似,而与其他簇中的对象相异。粗略的看,聚类 的结果与属性和属性值没有直接关联,即不是由某些属性来划分的。但是,考虑到距离或相 似度的定义基于属性和属性值,因此属性和属性值对簇的形成具有实际的影响,而且不同的 属性和属性值的影响力并不相同。因此,将聚类分析获得的簇作为已知的分类标签,进而提 取属性对分类的影响力的四项指标具有实际意义。

2.指标计算模块。

计算已标注样本每一属性的所选监控指标,所选监控指标可以是属性值辨识度、属性辨 识度以及属性值重要性、属性重要性的一项或多项。

3.预警分析模块

使用的全新的拐点分析技术,通过历史数据定义常态区域,并通过数据点及其发展趋势 与常态区域的关系,将数据分为三种状态:可控状态、监控状态、预警状态。将拐点分析技 术分别应用于属性值辨识度、属性辨识度、属性值重要性、属性重要性等四项指标,得出层 次丰富的预警结论。

与现有技术相比,本发明的积极效果为:

本发明公开的基于属性重要性和辨识度的时间序列预警方法可以获得更加全面的属性重 要程度信息。本发明将各个时间段的四项指标分别形成时间序列,使用拐点分析方法进行时 间序列的研究,可以做出不同层面的异常值预警,预警效果好。

本发明可应用于公安情报数据分析、反腐败数据分析、居民家庭用电情况分析、交通出 行模式分析、疾病特征数据分析、医疗数据分析、客户市场细分等多种领域,提取“属性对 相似性的影响力”指标,具有较强的普适性。

附图说明

图1为基于聚类的大数据属性重要性和辨识度的时间序列预警系统流程图;

图2为基于聚类的大数据属性重要性和辨识度的时间序列预警系统结构图;

图3为根据案例数据绘制的常态区域图;

图4为根据案例数据判断数值点的状态图;

图5为应用实例的模型形态图;

图6为应用实例异态计算和分析的相关结果图。

具体实施方式

本发明公开了一种基于聚类的大数据属性重要性和辨识度的时间序列预警方法和系统, 可以得到多层次的预警结果,如图1所示,本发明的具体操作步骤如下。

步骤1:数据采集。

数据采集模块是本系统的硬件基础。该模块将待分析的样本数据从分布在各地的终端数 据库中传输汇总到中央数据库。

步骤2:数据清洗。

通过数据采集终端汇总得到的数据,难免存在不完整、错误、重复等现象。数据清洗步 骤用于过滤这些不符合要求的数据,过滤的结果将提交给相关主管部门,确认是直接过滤掉 还是作为异常值提取出来做进一步分析。

步骤3:时间段选择及划分。

根据客户实际需求,将样本数据划分为若干时间段,针对每个时间段重复步骤4和步骤 5。本系统提供客户时间段划分的选择功能。

步骤4:数据降维。

经过清洗和时间段划分的的样本数据汇总到中央数据库。由于样本量(N1)巨大,形成了 维数大、规模大、复杂性大的大数据形态,要挖掘其中有意义的知识和内容以指导实际生产 和具体应用,需要首先进行降维处理,即维数约简,它一方面可以解决“维数灾难”,缓解大 数据中“信息丰富但知识贫乏”的问题,降低计算的复杂度;另一方面可以引导人们更好地 认识和理解数据。数据降维步骤包括以下子步骤:

步骤4.1:数据抽样。

对全体样本进行系统抽样(systematicsampling)。系统抽样,又称机械抽样、等距抽样。 具体而言:

(1)由系统硬件运转能力确定适合的抽样样本量(N2),定义压缩比(M)为:

M=N1÷N2;

(2)将全体样本数据按某一顺序排列起来,标注唯一的序号;

(3)从前M个样本中随机的选出一个样本作为抽样样本,记其序号为k;

(4)将序号为k、k+M、k+2*M、…、k+(N2-1)*M的N2个样本作为抽样结果。

步骤4.2:数据聚类。

本步骤可以建立在任何一种公知的聚类分析算法结果之上,通过对抽样后的样本数据进 行聚类分析,得到若干簇。

步骤4.3:降维指标选择。

针对抽样得到的N2个样本以及聚类获得的若干簇,可以通过后续的步骤计算降维指标 (即“属性对相似性的影响力”),并根据“影响力”的排序来确定降维后保留的属性。本系 统提供降维指标的选择,可选择的降维指标有:

降维指标1:属性辨识度指标;

降维指标2:属性重要性指标。

降维指标选择主要看待分析的问题中“样本量”因素是否重要,建议如下:

(1)如果“样本量”因素不重要,应选择属性辨识度指标给出影响力排序;

(2)如果“样本量”因素重要,应选择属性重要性指标给出影响力排序;

(3)如果想综合考虑上述两种情况,应结合这两个指标给出综合性的排序。

步骤4.4:降维指标计算。

计算降维指标,也就是计算每个属性“对相似性的影响力”,具体包括:属性辨识度和属 性重要性,同时还需要计算两个过渡性的指标:属性值辨识度和属性值重要性。我们以案例 为基础,说明这四项指标的主要计算步骤。系统将根据用户在步骤3.2中的选择情况计算相 应的指标。

四项指标计算案例:

一个包含100人的研究样本,其中包含50名女性和50名男性,其中20人有前科。通过 聚类分析获得了两个“簇”,其中“簇1”包含10个样本,绝大部分是犯有盗窃罪的人,而 “簇2”包含90个样本,绝大部分是未犯有盗窃罪的人。其他数据如表1。

表1:四项指标计算案例

序号 样本量 性别 前科 类型 1 42 簇2 2 36 簇2 3 8 簇2 4 5 簇1 5 4 簇2 6 3 簇1 7 1 簇1 8 1 簇1

1.计算属性值相对某个簇的辨识度。

计算属性值的辨识度,也就是基于条件概率和贝叶斯算法的理论,计算哪些属性值对已 知的标签取值有较大影响(定性)以及影响值多大(定量)。具体而言,用增加属性条件后的 概率变化值,即条件概率值与概率值的差,来表示每个簇中每个属性值的辨识度。

具体到本案例,我们想研究哪些属性对样本是否犯有盗窃罪具有较大的影响力,从而实 施有针对性的预防和干预工作。我们首先计算属性值相对某个簇的辨识度,以“簇1”为例。

对于这100人中的一个样本x,在属性未知的情况下,预测他(她)属于簇1的概率(可 能性)是:P(x属于簇1)=10/100=10%。

情况1:对于“性别=女”这个属性,如果知道这个人x是女性,则x属于簇1的条件概 率是:P(x属于簇1|x是女性)=4/50=8%,因为50名女性中有4人属于簇1,概率变化值为 8%-10%=-2%。

情况2:对于“前科=有”这个属性,如果知道这个人x有前科,则x属于簇1的条件概 率是:P(x属于簇1|x有前科)=8/20=40%,因为20名有前科的人中有8人属于簇1,概率变 化值为40%-10%=30%。

比较情况1和情况2:“前科=有”这个属性值相对簇1的辨识度大于0,也就是具有该属 性值的样本(条件概率),比无法判断是否具有该属性值的样本(无条件概率)属于簇1的可 能性更大;“性别=女”这个属性值相对簇1的辨识度小于0,也就是具有该属性值的样本, 比无法判断是否具有该属性值的样本属于簇1的可能性更小。进一步,“前科=有”这个属性 值相对簇1的辨识度的绝对值要远远大于“性别=女”这个属性值,可以认为前者对判断样本 是否属于簇1的影响力更大。

同理,可以计算出“性别=男”这个属性值相对簇1的辨识度为0.02,“前科=无”这个属 性值相对簇1的辨识度为-0.075。进一步考虑“簇2”,可以计算得到:“性别=女”相对簇2 的辨识度为0.02;“性别=男”相对簇2的辨识度为-0.02;“前科=有”相对簇2的辨识度为-0.3; “前科=无”相对簇2的辨识度为0.075。

2.计算属性值的辨识度。

对于样本具有的每一个属性值,将它相对所有的簇,都按照步骤2计算一个概率差值, 即该属性值相对该簇的辨识度,再将这些辨识度取平方平均数,得到该属性值针对整个空间 的辨识度。可见,“性别=女”和“性别=男”的辨识度均为0.02;“前科=有”的辨识度为0.3; “前科=无”的辨识度为0.075。

这样计算的属性值辨识度没有考虑属性值对应的样本量大小,可以很好的识别样本量很 少但辨别能力很强的属性。落实到实践中,针对“前科=有”的群体开展预防和干预工作要比 针对“性别=男”的群体开展工作具有更好的效果。而“前科=无”和“性别=女”的群体, 属于簇1的可能性(可以近似的看成犯盗窃罪的可能性)小于平均值,不需要进行预防干预。

3.计算属性的辨识度。

利用步骤3,我们得到了属性值“性别=女”和“性别=男”对于两类簇划分(相似性) 的辨识度,将两者的平方平均数定义为“性别”这一属性的辨识度,计算得0.02。同样的, 将属性值“前科=有”和“前科=无”的辨识度的平方平均数定义为“前科”这一属性对于“簇” 的辨识度,计算得0.2187。

4.计算属性值的重要性。

为了平衡属性值的辨别能力和对应的样本量,在“辨识度”概念的基础上定义“重要性” 概念。粗略的说,属性值的重要性等于属性值的辨识度乘上属性值对应的样本量。

例如,属性值“性别=女”和“性别=男”的辨识度均为0.02,对应样本量均为50,重要 性为1;属性值“前科=有”的辨识度为0.3,对应样本量为20,重要性为6;属性值“前科= 无”的辨识度为0.075,对应样本量为80,重要性为6。更加细化的,我们还可以计算属性值 相对于某个簇的重要性,例如,属性值“性别=女”相对簇1的重要性为-1;属性值“性别= 男”相对簇1的重要性为1。

可见,由于对应样本量的差异,两着的辨识度差别较大但重要性差别较小,辨识度和重 要性反映的信息存在不同。对于更复杂的情况,不同属性对应的的样本数量可能存在很大的 差异,甚至常常造成辨识度较高但对应样本量较少的属性值的重要性低于辨识度较低但对应 样本量较多的属性值。重要性指标可以用于较大范围的宣传教育工作,较好的平衡的针对性 和覆盖面。落实到实践中,可以针对“前科=有”的群体开展犯罪危害的教育工作。

进一步的,当一个属性只有两个属性值时,两者对“簇”的重要性绝对值相同,这符合 我们对“重要性”概念的一般认识,因为两个取值知道其中一个也就知道了另一个。

5.计算属性的重要性。

属性的重要性可以有两种定义,一种是通过属性值的重要性来计算,即“属性的重要性 等于属性值的重要性的平方平均数”;一种是通过属性的辨识度来计算,即“属性的重要性等 于属性的辨识度乘上属性对应的样本量”。由于每个属性对应的样本量都是样本总量,如果采 用后者的定义,那么属性的重要性和辨识度概念则本质上是相同的,不利于建立多层次的属 性影响力排序。因此,我们采用前一种定义方式。粗略的说,属性的重要性等于属性值的重 要性的平方平均数。

在本例中,属性“性别”的重要性为1,属性“前科”的重要性为6。这个结果也是与我 们的直观非常一致的。

步骤4.5:降维指标排序。

降维指标计算,也就是给出属性“对相似性的影响力”排序。根据步骤3.3中用户的选 择以及步骤3.4中的相关指标计算结果,获得属性“对相似性的影响力”排序。

步骤4.6:大数据降维(维度选择)。

根据步骤3.5中给出的属性“对相似性的影响力”排序,根据实际需求设定影响力阈值, 选择前D个属性或影响力大于该阈值的若干属性作为大数据降维后保留的属性,即维度选择。

步骤5:属性影响力指标计算。

针对降维后的全体样本数据,提取低维全体数据的“属性对相似性的影响力”四项指标。 相对于直接提取高维全体数据的四项指标,有利于降低本系统的计算复杂度、提高分析效率。

步骤5.1:数据聚类。

本步骤可以建立在任何一种公知的聚类分析算法结果之上,通过对降维后的低维样本数 据进行聚类分析,得到若干簇。

步骤5.2:划分指标计算。

我们可以将步骤5.1得到的“簇”作为已知的分类情况,计算“属性对相似性的影响力” 指标,包括:属性值辨识度、属性辨识度、属性值重要性、属性重要性等四项具体指标,具 体的计算方法参见步骤4.4。

步骤6:属性影响力指标时间序列异常预警。

在每个时间段上对“属性对相似性的影响力”的四项指标分别排序,再对排序情况在时 间序列上进行拐点分析。以属性值的辨识度为例,主要分析步骤如下:

1.绘制常态区域。

假设数据以4为周期,待研究的属性值连续三个周期的排序数据如表2:

表2:常态区域绘制案例

年份 时刻1 时刻2 时刻3 时刻4 第1周期 2 1 3 3 第2周期 3 4 3 2 第3周期 1 2 4 1 最低排序 3 4 4 3 最高排序 1 1 3 1

计算三个周期中每个时间点的最大值和最小值,将其范围确定为常态区域,则上面案例 的数据可以绘制如图3所示的常态区域。

2.在新周期中发现第一次突破常态区域的数据值点。

基于常态区域对新的一个周期的数据进行时间序列预警,首先是要确定第一次突破常态 区域的数值点。在案例中,假设在新的一个周期中,时刻1的数据为2,属于常态区域,即 该数值点为“可控状态”。时刻2的数据为5,第一次突破了常态区域,从而该数值点为“监 控状态”。相关人员应该密切关注数据在下个时间点的变动情况,是出现“回归”常态区域的 趋势还是“更加远离”常态区域。

3.区分可控状态、监控状态和预警状态。

在新的一个周期中,时刻2的数据突破常态区域,进入“监控状态”,时刻3的数据的三 种情况,分别对应可控状态(C点)、监控状态(B点)和预警状态(A点),如图4所示。

步骤7:预警信息发布。

本系统最后一个环节是将上述计算获得的预警信息,通过预警信息发布器反馈给用户。 本系统可供客户选择的预警信息发布模式有两种:(1)发布预警状态;(2)发布监控状态和预警 状态。

应用实例

本发明公开了一种基于聚类的大数据属性重要性和辨识度的时间序列预警方法及系统。 本发明以降维处理后的四项指标分别排序,包括:属性值辨识度、属性辨识度、属性值重要 性、属性重要性等,再将排序情况在时间序列上进行拐点分析。也就是根据各项指标在相应 的时间段的数值绘制出常态区间和监控与预警区域,基本的模型形态如图5所示。

本发明已经运用于某地区的旅店住宿人员的态势分析中,以下是对指定时间段中 23,147,419人的常态、异态计算和分析的相关结果,如图6所示,其中的较深色区域所表示 的态势及实际数值完整地验证了真实的预警指标及对应的数据实体,经过实际的旅店住宿人 员态势核查,在图中较深色区域表示的管控数据确实与真实的特定人群的迁移状态相吻合, 有力的支撑了相关的管控行为。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号