首页> 中国专利> 基于G-mean动态加权的不平衡概念漂移数据流分类方法

基于G-mean动态加权的不平衡概念漂移数据流分类方法

摘要

本发明公开了一种基于G‑mean动态加权的不平衡概念漂移数据流分类方法,属于数据流分类领域。所述方法通过在线加权机制,在每到达一个新实例而不是一个完整的数据块时,所有基分类器的权重更新一次且不受类分布的影响,更新基分类器时既考虑该分类器创建的时间,又考虑它在最近p个数据上的G‑mean性能,G‑mean性能对数据的类分布不敏感,可以平衡多类和少类的重要性,使得本申请方法提高了对于少数类的分类准确率,同时,TPR和TNP通过时间衰减因子增量计算,无需保存任何历史数据;同时使用两种淘汰机制控制集成模型的规模,保持决策的高效性和准确性。

著录项

  • 公开/公告号CN112685508A

    专利类型发明专利

  • 公开/公告日2021-04-20

    原文格式PDF

  • 申请/专利权人 江南大学;

    申请/专利号CN202011552340.7

  • 发明设计人 李光辉;梁斌;

    申请日2020-12-24

  • 分类号G06F16/28(20190101);G06K9/62(20060101);

  • 代理机构23211 哈尔滨市阳光惠远知识产权代理有限公司;

  • 代理人林娟

  • 地址 214000 江苏省无锡市滨湖区蠡湖大道1800号

  • 入库时间 2023-06-19 10:41:48

说明书

技术领域

本发明涉及基于G-mean动态加权的不平衡概念漂移数据流分类方法,属于数据流分类领域。

背景技术

在大数据时代,信息的爆炸性增长导致数据流广泛出现在各个领域中,如无线传感器数据流,银行交易数据流等。如何实现对于数据流的准确分类是一个必然要解决的问题;和对于传统静态数据的分类相比,对于数据流的分类存在以下问题:

一方面,数据流中数据的潜在分布或目标概念随着时间推移发生变化,这种现象通常被称为概念漂移。概念漂移会导致在过去数据上训练的分类模型的性能显著下降,分类准确率大大降低。

另一方面,当数据流中的类分布不平衡时,即某一类的实例数量显著多于其他类,数据流分类会变得更加困难,因为少类实例出现频率过低,导致分类模型对它们学习不充分。然而现有的数据流方法大多假设各类实例的数量大致相当,然而这一基本假设在数据流环境中往往并不成立。例如,在信用卡的欺诈辨识和网络入侵检测索等众多应用领域中,大多数数据都是正常数据,只有极少数为欺诈信息和入侵数据报,然而用户往往更关注系统在少数类实例上的处理情况。

因此,当前对于数据流的分类方法中,往往只对多类实例具有很好的分类准确率,从而保证整个系统具有很高的分类准确率,而整体高性能往往掩盖了系统对少数类处理不力的问题。如何在保持系统整体高性能的同时,提高系统对少数类的分类准确率是一个具有广泛实际应用价值的问题。

发明内容

为了解决目前对于数据流分类时存在的概念漂移问题以及对于少数类的分类准确率不高的问题,针对二分类数据流,本发明在基于数据块集成方法上引入了在线更新机制,提出了一种基于G-mean加权的在线不平衡数据流分类方法OGUEIL,以集成框架为基础,每到达一个新实例,增量更新每个基分类器及其权重,并对少类实例随机过采样,无须保存历史数据,并周期性添加新的候选分类器。

一种基于G-mean动态加权的不平衡概念漂移数据流分类方法,所述方法包括:

S1:初始化当前集成模型和自适应滑动窗口为空;所述当前集成模型由基分类器组成;

S2:当前数据流中,每到达一个新实例x

S3:增量计算当前数据流中正类和负类实例的数量,确定少类和多类实例;

S4:更新当前集成模型中每个分类器及其权重;

S5:周期性地根据当前滑动窗口中数据训练一个新的候选分类器,添加到当前集成模型中得到新的集成模型。

可选的,所述S2:当前数据流中,每到达一个新实例x

根据加权多数投票原则对每个输入实例预测,在t时刻,当前集成模型根据每个基分类器C

其中i=1,2,…,m,m为预先设定的集成模型包含基分类器的最大个数;

sign(·)为符号函数,若括号中结果大于0,返回1,代表正类c

可选的,所述S3:增量计算当前数据流中正类和负类实例的数量,确定少类和多类实例,包括:

步骤31:在二分类数据流汇总,基于时间衰减因子增量计算正类和负类的实例数量;

假设在t时刻到达当前数据流的一个新实例x

其中λ是时间衰减因子;

如果新实例x

如果新实例x

步骤32:如果其中一类的实例数量显著另一个类别,则该类被定义为多类,另外一个类被定义为少类;

根据公式(3)将当前数据流各个实例分为少类实例和多类实例,若满足式(3),正类c

s

其中,δ表示预先设定的类别阈值。

可选的,所述S4:更新当前集成模型中每个分类器及其权重,包括:

步骤41:根据当前实例所属的类别确定训练次数k,若属于少类,则k~Poisson(ξ),ξ为多类实例数量与少类实例数量的比值,若属于多类,则k~Poisson(1);

步骤42:到达一个新实例,集成模型中每个基分类器根据最近若干数据上的G-mean性能在线调整对应的权重。

可选的,所述步骤42:到达一个新实例,集成模型中每个基分类器根据最近若干数据上的G-mean性能在线调整对应的权重,包括:

在t时刻到达一个新实例x

其中λ是时间衰减因子,y

可选的,所述式(4)表示为伯努利随机变量的几何加权和,如式(5)所示,

同理,TNR的计算公式如(6)所示,

I

可选的,所述步骤42:到达一个新实例,集成模型中每个基分类器根据最近若干数据上的G-mean性能在线调整对应的权重,还包括:在t时刻,每个基分类器的权重通过式(7)-(10)更新:

其中τ代表基分类器的创建时刻,w

一个新的基分类器在τ时刻被创建,权重使用当前所有分类器权重的最大值初始化;

当1p时,基分类的权重计算只考虑在最近p个数据上的G-mean。

可选的,所述S5:周期性地根据当前滑动窗口中数据训练一个新的候选分类器,添加到集成模型中,包括:

步骤51:每隔固定周期,如果当前滑动窗口中的少类实例数量达到预设的阈值,开始训练一个新的候选分类器;

使用自适应窗口W缓存当前数据,当满足式(11)时,

|W|≥pandN

其中p表示训练一个候选分类器需要的最少实例数,N

步骤52:分别统计当前滑动窗口中多类实例和少类实例的数量N

步骤53:对少类实例进行过采样,对多类实例欠采样,使二者数量达到平衡,然后在该类平衡数据集上训练候选分类器,添加到当前集成模型中得到新的集成模型。

可选的,所述步骤53:对少类实例进行过采样,包括:

使用SMOTE少类实例过采样至N

可选的,在创建新的候选分类器时,若集成模型的成员数量没有达到预设的最大值m,直接添加,否则替换权重最小的成员;当任意基分类器的权重小于预设的淘汰阈值θ时即使集成模型的成员数量没有达到预设的最大值m也要移除。

本发明有益效果是:

本发明在不平衡概念漂移数据流中,通过综合基于数据块的方法和在线方法的优点,提高分类准确率和少类召回率。本发明是完全增量地,无需保存任何历史数据,使用在线分类器作为基分类器,每到达一个实例,对集成模型中的所有成员在线更新同时根据每个成员在最近若干数据上的G-mean性能加权,性能越好的成员获得权重值也越大。每隔固定周期,本发明检查当前是否满足创建新候选分类器条件,若满足就结合重采样技术创建,然后添加至集成中,并使用两种淘汰机制控制集成模型的规模,保持决策的高效性和准确性。

本发明在7个人工和真实数据集进行实验,结果表明,本发明在少类数据上保持良好性能的同时没有牺牲在多类数据上的性能,在平衡与不平衡数据流下都可以有效处理概念漂移,具有较强的鲁棒性。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一个实施例中提供的基于G-mean动态加权的不平衡概念漂移数据流分类方法流程图。

图2是本发明一个实施例中提供的基于G-mean动态加权的不平衡概念漂移数据流分类方法和现有方法在Sine数据集上的实验结果对比仿真图;其中,图2A为准确率对比仿真图,图2B为几何平均值对比仿真图,图2C为少类召回率对比仿真图。

图3是本发明一个实施例中提供的基于G-mean动态加权的不平衡概念漂移数据流分类方法和现有方法在Hyper Planenc数据集上的实验结果对比仿真图;其中,图3A为准确率对比仿真图,图3B为几何平均值对比仿真图,图3C为少类召回率对比仿真图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一:

本实施例提供一种基于G-mean动态加权的不平衡概念漂移数据流分类方法,所述方法包括:

S1:初始化当前集成模型和自适应滑动窗口为空;所述当前集成模型由基分类器组成;

S2:当前数据流中,每到达一个新实例x

S3:增量计算当前数据流中正类和负类实例的数量,确定少类和多类实例;

S4:更新当前集成模型中每个分类器及其权重;

S5:周期性地根据当前滑动窗口中数据训练一个新的候选分类器,添加到当前集成模型中得到新的集成模型。

实施例二:

本实施例提供一种基于G-mean动态加权的不平衡概念漂移数据流分类方法,参见图1,所述方法包括:

步骤1:初始化集成模型和自适应滑动窗口为空,当前集成模型由基分类器组成。

步骤2:当前数据流中,每到达一个新实例,使用当前集成模型预测其分类结果。

将到达的新实例作为输入,根据加权多数投票原则对每个输入实例预测,在t时刻,当前集成模型根据每个成员分类器C

其中i=1,2,…,m,m为预先设定的集成模型包含基分类器的最大个数;

sign(·)为符号函数,若括号中结果大于0,返回1,代表正类c

步骤3:检测当前数据流的类分布情况,确定少类(minority class instance)和多类实例(majority class instance)。

步骤31:在二分类数据流汇总,基于时间衰减因子增量计算正类(positiveclass)和负类(negative class)的实例数量。

步骤32:如果其中一类的实例数量显著另一个类别,则该类被定义为多类(majority class),另外一个类被定义为(minority class)。

二分类情况下(假设为正类和负类),本发明使用时间衰减因子增量计算每个类的实例数量,区别于传统统计每个类别实例的方式,这种方式更加强调当前数据的影响同时弱化旧数据的影响。

在t时刻到达一个新实例x

如果新实例x

步骤32:计算传感器节点历史数据中被检测为异常的次数,计算其异常概率。

本发明根据公式(3)确定少类实例和多类实例,其中δ表示预先设定的阈值。若满足式(3),正类c

s

δ表示预先设定的类别阈值。

步骤4:更新当前集成模型中每个分类器及其权重。

步骤41:根据当前实例所属的类别确定训练次数k,若属于少类,则k~Poisson(ξ),ξ为多类实例数量与少类实例数量的比值,若属于多类,则k~Poisson(1)。

步骤42:到达一个新实例,集成中每个基分类器根据最近若干数据上的G-mean性能在线调整权重。

本发明提出的基于G-mean的动态加权机制即在每到达一个新实例而不是一个完整的数据块,所有基分类器的权重更新一次且不受类分布的影响。更新基分类器时即考虑该分类器创建的时间,又考虑它在最近p个数据上的G-mean性能。G-mean对数据的类分布不敏感,可以平衡多类和少类的重要性,在平衡和不平衡数据流中都可以很好地反映一个分类器的性能。

在本发明中,TPR和TNP通过时间衰减因子增量计算,增量计算的时间复杂度为O(1),在t时刻到达一个新实例x

其中λ是时间衰减因子,y

进一步,式(4)可以表示为伯努利随机变量的几何加权和,如式(5)所示,

同理,TNR的计算公式如(6)所示,

I

在t时刻,每个基分类器的权重通过式(7)-(10)更新:

其中τ代表基分类器的创建时刻,w

步骤5:周期性地根据当前滑动窗口中数据训练一个新的候选分类器,添加到集成中。

步骤51:每隔固定周期,如果当前滑动窗口中的少类实例数量达到预设的阈值,开始训练一个新的候选分类器。

本发明使用自适应窗口W缓存当前数据,当满足式(11)时,

|W|≥pandN

其中p表示训练一个候选分类器需要的最少实例数,N

步骤52:分别统计当前滑动窗口中多类和少类实例的数量。

首先分别统计窗口中多类实例和少类实例的数量N

步骤53:对少类实例进行过采样,对多类实例欠采样,使二者数量达到平衡,然后在该类平衡数据集上开始训练候选分类器。

使用SMOTE少类实例过采样至N

为保证集成分类的效率和准确率,两种淘汰机制被用于本发明中集成机构的优化:第一,每当创建一个新候选分类器时,若集成模型的分类器数量没有达到预设的最大值m,直接添加,否则替换权重最小的成员,这样保证了集成模型的成员不会随时间无限增加,降低内存消耗。第二,当任意基分类器的权重小于预设的淘汰阈值θ,这表明该分类器的性能弱于随机分类器。即使集成模型的成员数量没有达到上限也要移除,在提高分类精度的同时减少决策时间。

为验证本申请方法能够有效解决数据流概念漂移问题,并能够对少数类进行准确分类,本实施在6个人工数据集和1个真实数据集进行实验仿真,并以准确率、几何平均值和少类召回率作为对比指标与OAUE方法、DWMIL方法、OOB方法、LPN方法和REA方法进行了对比:

(1)6个人工数据集和1个真实数据集详情如下:

Sine:该数据集生成器有2个属性x和y。分类函数是y=sin(x),在第一次漂移之前,函数曲线下方的实例被标记正,曲线上方的被标记为负,共有两个类别。在漂移点,通过反转分类规则来产生漂移。Sine共包含100000个实例,每隔20000个实例产生一次漂移,类分布平衡,含10%噪声。

Sea:该数据集生成器有3个属性,其中第3个属性与类别无关,如果x

Circle:该数据集生成器有2个属性x和y。四个圆方程表示4个不同概念,半径,圆心分别为<0.15,(0.2,0.5)>,<0.2,(0.4,0.5)>,<0.25,(0.6,0.5)>和<0.3,(0.8,0.5)>。圆内的实例被分类为正,圆外为负,共两个类别。在漂移点通过更换圆的方程来产生漂移。Circle数据集共包含50000个实例,每隔12500个实例产生一次漂移,类分布平衡,含10%噪声。

Hyper Plane:该数据集生成器有10个属性,通过连续旋转决策超平面产生漂移。Hyper Plane

Drifting Gaussian:该数据集生成器有2个属性,通过改变高斯成分的均值和方差产生漂移。本实验中通过欠采样产生类不平衡数据集Gaussian

Electricity:该数据集为真实数据集,收集了澳大利亚新南威尔士州电力市场的45,312组电价数据,包含8个属性和2个类别。

(2)准确率ACC(Accuracy,准确率)、TPR(True Positive Rate,正类准确率)、TNR(True Negative Rate,负类准确率)、几何平均值(G-mean)和少类召回率计算公式如下:

特别的,在当前数据流中,若正类为少类,则TPR代表少类召回率;反之,若负类为少类,则TNR代表少类召回率。准确率,几何平均值和少类召回率三个评价指标均是越高越好,即越高,则表明分类越准确。

(3)OAUE方法、DWMIL方法、OOB方法、LPN方法和REA方法可参考:

OAUE方法可参考H.Zhang,and Z.Li,“Anomaly Detection Approach for UrbanSensing Based on Credibility and Time-Series Analysis Optimization Model,”IEEE Access,vol.7,pp.49102-49110,2019.

DWMIL方法可参考Lu Y,Cheung Y M,Tang Y Y.Dynamic weighted majority forincremental learning of imbalanced data streams with concept drift;proceedings of the Twenty-Sixth International Joint Conference on ArtificialIntelligence,F,2017.

OOB方法可参考Resampling-based ensemble methods for online classimbalance learning[J].IEEE Transactions on Knowledge and Data Engineering,2015,27(5):1356-1368.

LPN方法可参考Ditzler G,Polikar R.Incremental learning of conceptdrift from streaming imbalanced data[J].IEEE Transactions on Knowledge andData Engineering,2013,25(10):2283-2301.

REA方法可参考Chen S,He H.Towards incremental learning ofnonstationary imbalanced data stream:A multiple selectively recursiveapproach[J].Evolving Systems,2010,2(1):35-50.

(4)实验结果如下述表1-表3所示,仿真图如图1-图3所示;

表1所有数据集上的准确率结果

表2所有数据集上几何平均值结果

表3所有数据集上少类召回率结果

表1给出了所有方法的7个数据集上的准确率结果。由于准确率对类分布敏感,表中的结果分为两部分看,第一,Sine,Circle和Electricity 3个数据集的类分布相对平衡,准确率可以较好地反映每种方法的性能,本发明OGUEIL在这3个数据集上准确率均排在第1,这表明OGUEIL可以很好地处理各种类型概念漂移,紧接着是OAUE和DWMIL,二者结果相近。第二,在其余类分布不平衡数据集上,OAUE均排名第1,但这不能表明OAUE处理类分布不平衡数据流中概念漂移的能力强于其他方法,因为数据流的类分布严重不平衡,准确率会偏向于多类,意味着一个方法只有把所有实例预测为多类就可以获得很高的准确率,严重忽略少类实例,不能合理地反映方法性能。表2给出了各方法G-mean的实验结果,G-mean对类分布不敏感,在平衡或不平衡数据流中都可很好地反映一个方法的性能。由表中数据知,本发明OGUEIL在7个数据集上平均排名第1,DWMIL次之,而OAUE的G-mean性能很差,在Sea

本发明实施例中的部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号