首页> 中国专利> 一种簇特征加权的模糊紧致散布聚类方法

一种簇特征加权的模糊紧致散布聚类方法

摘要

针对现有的WFCM算法在聚类时没有考虑样本硬划分实际情况且对样本分布不均衡情况数据聚类效果不好,FCS算法没有考虑硬划分边界点的情况以及忽略样本特征参数对各类聚类影响的问题,本发明公开了一种簇特征加权的模糊紧致散布聚类方法,通过对样本隶属度、特征权重进行调整,遵循了样本硬划分的实际情况,并充分考虑样本特征参数对各类聚类的影响,尽可能使得样本类内紧致、类间分散,解决了位于硬划分边界的样本隶属度问题,在样本分布不均衡情况下对于噪声数据和异常数据实现了更有效的划分。本方法聚类性能良好,收敛速度快、迭代效率高。聚类性能良好,迭代效率高,适于应用在工业控制中样本分布不均衡、实时性、准确率要求高的场合。

著录项

  • 公开/公告号CN104182511A

    专利类型发明专利

  • 公开/公告日2014-12-03

    原文格式PDF

  • 申请/专利权人 南京信息工程大学;

    申请/专利号CN201410413719.8

  • 发明设计人 周媛;王丽娜;何军;

    申请日2014-08-20

  • 分类号G06F17/30(20060101);

  • 代理机构32206 南京众联专利代理有限公司;

  • 代理人顾进;叶涓涓

  • 地址 210044 江苏省南京市宁六路219号

  • 入库时间 2023-12-17 03:09:47

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-06-19

    专利权的转移 IPC(主分类):G06F17/30 登记生效日:20200601 变更前: 变更后: 申请日:20140820

    专利申请权、专利权的转移

  • 2017-09-26

    授权

    授权

  • 2014-12-31

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140820

    实质审查的生效

  • 2014-12-03

    公开

    公开

说明书

技术领域

本发明属于数据处理技术领域,尤其是涉及一种簇特征加权的模糊紧致散布聚类方法。

背景技术

在自然科学和社会科学中,存在着大量的分类问题,聚类方法是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法,应用领域非常广泛。模糊C-均值(FCM)聚类算法是常用的无监督模式识别方法,很多人不断对FCM算法进行改进,这些算法考虑了样本各特征参数对聚类中心的影响,改善了噪声、异常数据影响等情况。但是,这些基于FCM的聚类算法,实质都只考虑了样本的类内紧致性(类内散度),而忽略了样本类间散布性(类间散度),不能很好的处理样本分布不均衡的数据聚类问题。Kuo-Lung Wu等人提出的FCS(Fuzzy Compactness and Separation)算法考虑了类内紧致和类间散布,并兼容了样本的硬划分和模糊划分,这更符合实际情况;国内有宋风溪等人提出了最大散度差判别准则的分类方法,该准则综合考虑类间散度和类内散度来求最优投影向量以对样本进行分类;皋军等人将模糊度引入了最大散度差判别准则提出了FMSDC(fuzzy maximum scatterdifference discriminant criterion)算法,在模糊聚类的同时进行了降维;支晓斌等人指出皋军等人的算法中的错误,提出FMSDC-FCS聚类算法,该算法是皋军等人算法的正确版本,利用FCM算法初始化隶属度和样本均值,再用FMSDC算法进行降维,用FCS算法对降维数据进行聚类,其聚类实质还是采用FCS算法。

而在利用上述算法进行数据分类的过程中,我们发现,实际数据有些处于某类硬划分区域内,这些数据的隶属度就不需要模糊化,并且,对于样本分布不均衡数据如何进行有效划分,这是FCM算法以及相关扩展FCM算法所不能解决的。FCS算法虽然考虑了样本硬划分问题,但是却没有考虑处于硬划分边界上的样本情况,这就导致了对实际数据进行分类时,遇到边界数据时出现算法失效的问题。

发明内容

针对现有的WFCM算法在聚类时没有考虑样本硬划分实际情况,不能很好处理样本分布不均衡数据划分,FCS算法没有考虑硬划分边界点的情况以及忽略样本特征参数对各类聚类影响的问题,本发明公开了一种簇特征加权的模糊紧致散布聚类方法。

为了达到上述目的,本发明提供如下技术方案:

一种簇特征加权的模糊紧致散布聚类方法,包括如下步骤:

步骤一:设置隶属度指数m、特征加权指数α∈[-10,-1]∪(1,10]、β∈{0.005,0.05,0.5,1},初始迭代次数p=0以及迭代误差ε>0,随机生成初始聚类中心ai(s为特征参数个数);

步骤二:根据下式计算系数ηi

>ηi=β4minii||ai-ai||2maxt||at-X||2>

其中,为样本均值;

步骤三:根据下式更新样本隶属度μij

>μij=(Σk=1sωikα(||xjk-aik||2-ηi||aik-Xk||2))11-mΣt=1c(Σk=1sωtkα(||xjk-atk||2-ηt||atk-Xk||2))11-m>

>Δij=Σk=1sωikα(||xjk-aik||2-ηi||aik-Xk||2)>

当样本点xj存在落在硬划分边界上时,此时Δij=0,在保证各样本点相对于第i类的距离尺度不变的前提下,对所有Δij≥0的利用P(Δij)进行调整:

>Δij=P(Δij0)=Δij+rand*minj(Δij>0)(j=1,...,n)>

调整后利用下式计算新的μij

>μij=Δij11-mΣt=1cΔtj11-m>

因为有样本点xj落在第i类硬划分区域内,所以会有μij<0,因此对μij进行硬划分调整:

>μij=1,Δij<0μij=0,ii>

步骤四:根据下式计算特征权重ωik

>ωik=(Σj=1nμijm(||xjk-aik||2-ηi||aik-Xk||2))11-αΣt=1s(Σj=1nμtjm(||xjt-ait||2-ηi||ait-Xt||2))11-α>

>Δik=Σj=1nμijm(||xjk-aik||2-ηi||aik-Xk||2)>

若Δik<0,因为ωik∈[0,1],所以需将Δik投影到大于0的区间且保证各样本的第k个特征参数与第i类的硬划分区的距离尺度不变,于是利用下式调整Δk

>Δik=Δik-mink(Δik)+mink(Δik>0)>

调整后利用特征权重公式计算新的ωik

步骤五:根据下式计算聚类中心aik

>aik=Σj=1nμijm(xjk-ηiXk)Σj=1nμijm(1-ηi)>

步骤六:令迭代次数p=p+1,直到否则转到步骤二;

步骤七:将第p次迭代得到的μij输出,根据即第j个样本属于第i类。

进一步的,所述样本隶属度μij和特征权重ωik通过如下步骤计算:

建立目标函数:

>JCWFCS=Σi=1cΣj=1nΣk=1sμijmωikα||xjk-aik||2-Σi=1cΣj=1nΣk=1sηiμijmωikα||aik-Xk||2>

簇特征加权的FCS聚类问题表示如下:

>minJCWFCSs.t.Σi=1cμij=1,Σk=1sωik=1>

利用拉格朗日乘子法得到:

>L=Σi=1cΣj=1nΣk=1sμijmωkα||xjk-aik||2-Σi=1cΣj=1nΣk=1sηiμijmωikα||aik-Xk||2-Σj=1n(λi(Σi=1cμij-1))-Σi=1c(λi(Σk=1sωik-1))>

上式中,λi、λj是拉格朗日乘子;

根据上式分别对μij、ωik、λi、λj、求偏导并令偏导结果为零得到μij、ωik

本发明还提供了基于簇特征加权的模糊紧致散布聚类方法的工业数据分类方法,包括:获得传感器采集到的数据后,通过本发明提供的CWFCS方法(步骤一~七)对采集的数据进行分类,再根据分类结果判断工业设备或工艺的当前状态。

进一步的,所述传感器采集的是航空发动机状态数据,判断的是航空发动机的健康状态。

有益效果:

本发明遵循了样本硬划分的实际情况,并充分考虑样本特征参数对样本划分的影响,尽可能使得样本类内紧致、类间分散,解决了位于硬划分边界的样本隶属度问题,在样本分布不均衡情况下,对于噪声数据和异常数据实现了更有效的划分。聚类性能良好,收敛速度快、迭代效率高。实验证明,本算法聚类性能良好,收敛速度快、迭代效率高。与现有方法相比,本发明聚类准确率高,耗时明显减少,适于应用在工业控制中样本分布不均衡、实时性要求高的场合。

附图说明

图1为簇特征加权的模糊紧致散布聚类方法步骤流程示意图;

图2为Iris数据集的数据分布,CWFCS算法、FCS算法和WFCM算法的聚类效果、聚类中心示意图;

图3为β=1时,CWFCS算法聚类结果、硬划分结果及收敛性示意图;

图4为β=0.5时,CWFCS算法聚类结果、硬划分结果及收敛性示意图;

图5为β=0.05时,CWFCS算法聚类结果、硬划分结果及收敛性示意图;

图6为β=0.005时,CWFCS算法聚类结果、硬划分结果及收敛性示意图;

图7为参数α、β、m的不同取值对聚类结果影响示意图。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

我们发现,现实生活中的数据无监督聚类,是存在样本对聚类中心的硬划分的,并且,处于硬划分边界上的样本相比硬划分区域外的样本对该类的隶属度应该最大,但相对硬划分区域内样本又相对模糊些,且样本的各特征参数对各类聚类结果是有不同的影响,本发明正是基于上述思路,提出了一种改进的模糊紧致散布聚类方法。

首先定义簇特征加权类内散度和簇特征加权类间散度如下:

>SCWFW=Σi=1cΣj=1nΣk=1sμijmωikα||xjk-aik||2---(1)>

>SCWFB=Σi=1cΣj=1nΣk=1sηiμijmωikα||aik-Xk||2---(2)>

特征加权系数α∈[-10,0)∪(1,10];

建立目标函数:

>JCWFCS=Σi=1cΣj=1nΣk=1sμijmωikα||xjk-aik||2-Σi=1cΣj=1nΣk=1sηiμijmωikα||aik-Xk||2>

簇特征加权的FCS聚类问题表示如下:

>minJCWFCSs.t.Σi=1cμij=1,Σk=1sωik=1>

利用拉格朗日乘子法得到:

>L=Σi=1cΣj=1nΣk=1sμijmωkα||xjk-aik||2-Σi=1cΣj=1nΣk=1sηiμijmωikα||aik-Xk||2-Σj=1n(λi(Σi=1cμij-1))-Σi=1c(λi(Σk=1sωik-1))>

上式中,λi、λj是拉格朗日乘子;

根据上式分别对μij、ωik、λi、λj、求偏导并令偏导结果为零,求得:

>μij=(Σk=1sωikα(||xjk-aik||2-ηi||aik-Xk||2))11-mΣt=1c(Σk=1sωtkα(||xjk-atk||2-ηt||atk-Xk||2))11-m---(3)>

>ωik=(Σj=1nμijm(||xjk-aik||2-ηi||aik-Xk||2))11-αΣt=1s(Σj=1nμtjm(||xjt-ait||2-ηi||ait-Xt||2))11-α---(4)>

>aik=Σj=1nμijm(xjk-ηiXk)Σj=1nμijm(1-ηi)---(5)>

簇特征加权的模糊紧致散布聚类方法,如图1所示,包括如下步骤:

步骤一:设置隶属度指数m、特征加权指数α∈[-10,-1]∪(1,10]、β∈{0.005,0.05,0.5,1},初始迭代次数p=0以及迭代误差ε>0,随机生成初始聚类中心ai(s为特征参数个数);

步骤二:根据下式计算系数ηi

>ηi=β4minii||ai-ai||2maxt||at-X||2---(6)>

其中,为样本均值;

步骤三:根据公式(3)更新样本隶属度μij

>μij=(Σk=1sωikα(||xjk-aik||2-ηi||aik-Xk||2))11-mΣt=1c(Σk=1sωtkα(||xjk-atk||2-ηt||atk-Xk||2))11-m---(3)>

>Δij=Σk=1sωikα(||xjk-aik||2-ηi||aik-Xk||2)---(7)>

考虑样本点xj落在硬划分边界情况,此时如果直接用公式(3)计算得μij为正无穷大,算法无效;对于落在第i类硬划分边界的样本点本身就具有模糊性,如果把它进行硬化分是和实际情况不相符的,但是和其他落在硬划分区域外的样本点相比,xj对于第i类有更大的模糊隶属度,在保证各样本点相对于第i类的距离尺度不变的前提下,对所有Δij≥0的利用调整函数P(Δij)进行调整:

>Δij=P(Δij0)=Δij+rand*minj(Δij>0)(j=1,...,n)---(8)>

调整后利用下式计算新的μij

>μij=Δij11-mΣt=1cΔtj11-m---(9)>

因为有样本点xj落在第i类硬划分区域内,所以会有μij<0,因此对μij进行硬划分调整:

>μij=1,Δij<0μij=0,ii---(10)>

步骤四:根据下式计算特征权重ωik

>ωik=(Σj=1nμijm(||xjk-aik||2-ηi||aik-Xk||2))11-αΣt=1s(Σj=1nμtjm(||xjt-ait||2-ηi||ait-Xt||2))11-α>

>Δik=Σj=1nμijm(||xjk-aik||2-ηi||aik-Xk||2)---(11)>

当Δik=0时第k个特征参数对第i类聚类的影响一样,所以ωik=0。

若样本分布极不均衡,则有Δik<0,因为ωik∈[0,1],所以需将Δik投影到大于0的区间且保证各样本的第k个特征参数与第i类的硬划分区的距离尺度不变,于是利用下式调整Δik

>Δik=Δik-mink(Δik)+mink(Δik>0)---(12)>

调整后利用特征权重公式计算新的ωik

步骤五:根据下式计算聚类中心aik

>aik=Σj=1nμijm(xjk-ηiXk)Σj=1nμijm(1-ηi)---(13)>

步骤六:令迭代次数p=p+1,直到否则转到步骤二;

步骤七:将第p次迭代得到的μij输出,根据即第j个样本属于第i类。

通过上述步骤,遵循了样本硬划分的实际情况,并充分考虑样本特征参数对各类划分的影响,尽可能使得样本类内紧致、类间分散,解决了位于硬划分边界的样本隶属度问题,在样本分布不均衡情况下对于噪声数据和异常数据实现了更有效的划分。

实施例一:

为了更好地说明本发明的性能,我们采用本发明方法针对UCI repository of machinelearning databases的其中一个真实数据集:Iris数据集进行分类实验,模糊指数m分别设为(1.5,2,2.5,3,3.5),迭代误差精度取10-6,本发明的簇特征加算法CWFCS算法中的参数β分别设为(0.005,0.05,0.5,1),为表示样本分布不均衡情况,Iris数据集保留第一、二类所有数据并从第三类随机选取10个样本,共110个样本分为3类,其中第2类和第3类有交叉,采用本发明算法(简称CWFCS算法)的聚类结果如图2~图6所示。从图2可看出,本算法具备基本聚类功能,聚类结果和图2(a)所示的原始数据分布大致相同,图3~图6显示三类聚类中心间的距离随着β变化而变化。当β由1减小到0.05时,系统模糊度增加,表现为三类聚类中心逐渐靠拢;由于第三类样本数远比第一、二类少,且还和第二类有重叠,为了使样本类内紧致同时也使类间散布尽可能大,所以当β取0.005时,第一、三类中心距离和第二、三类中心距离相对β=0.05时反而稍微增大一点;图3~图6的(b)给出的样本硬划分效果,β由1到0.005逐渐减小,110个样本中相应的硬划分样本数为79、64、42、0,这表明本文算法保留了FCS算法的样本硬划分特性,且β越大样本硬划分程度越高;图3~图6(c)是聚类中心变化量,可看出本文算法收敛速度快、迭代效率高;本算法使样本的簇特征加权类内散布尽可能小且簇特征加权类间散布尽可能大,若各聚类中心越分散则簇特征加权类间散布越小则样本模糊划分程度越高。上述实验结果表明,本算法聚类性能良好,收敛速度快、迭代效率高。

图7显示参数α、β、m的不同取值对聚类的影响。β越小,误分率越大;无论β取什么值,对同一β,α=2,m∈{1.5,2}时,平均误分率最小且β<0.5时,算法对α、m取值较敏感。图7(a)β=1,α>3时,m取整数(2、3)时是α越大误分率越小,否则是α越小误分率越小;α<0时误分率随着α变小而变小,m则影响不大。图7(b)~(d)显示当β<1时,算法受α、m影响的趋势基本一致,对某一α有m越大误分率越大;对某一m(不考虑α=2的最优情况),若α>0则α越大误分率越小,若α<0则α越小误分率越小。

实施例二:

为了验证本发明的优越性,我们分别用FCS、WFCM和本发明提供的CWFCS三个方法对Iris数据集进行实验。

实验中,实验中模糊指数m分别设为(1.5,2,2.5,3,3.5)错误!未找到引用源。,迭代误差精度取10-6,CWFCS算法中的参数β分别设为(0.005,0.05,0.5,1);实验重复100次,取最优结果和平均结果。用正确率(Accuracy)、迭代次数(Iter)、执行时间(Time)三个指标来衡量算法最优性能,用平均准确率(avg_Accuracy,正确划分样本数/样本总数)、平均迭代次数(avg_Iter)和平均执行时间(avg_Time)来衡量算法整体性能,三种算法的聚类结果中最好和平均结果如表1所示:

AlgorithmAccuryIterNOTimeavg_Accuryavg_Iternoavg_TimeFCS0.754545280.0282360.689091350.193956WFCM0.854545300.1032160.852424290.090867CWFCS0.981818480.0553340.966364550.063656

表1

从表1中可以看出,对于Iris数据集,CWFCS算法最高准确率和平均准确率均高于其它两个算法;CWFCS的执行时间最短,其平均执行时间比FCS算法缩短了约67%、平均准确率比FCS算法提高了40%,比WFCM算法时间缩短了21%、平均准确率提高了23%。

上述实验结果基于无噪Iris数据集得到,我们还可以用FCS、WFCM和本发明提供的CWFCS三个方法对加噪Iris数据集进行实验,实验参数和环境与上述针对无噪Iris数据集时相同。三种算法的聚类结果中最好和平均结果如表2所示:

AlgorithmAccuryIterNOTimeavg_Accuryavg_Iternoavg_TimeFCS0.754545400.3862120.720606620.468495WFCM0.845455260.1095350.845455290.101066CWFCS0.972727290.0314200.887879430.049336

表2

从表2中可以看出,对于加噪Iris数据集,CWFCS算法的最高准确率和平均准确率也明显高于其它两个算法。

实施例三:

我们再分别用FCS、WFCM和本发明提供的CWFCS三个方法对Breast Cancer数据集进行实验,Breast Cancer数据集共有30个属性,为表示样本分布不均衡,第一类随机选择10个样本,第二类有367个样本,结果如表2所示。表3可看出CWFCS算法性能最稳定,迭代次数稍微高于WFCM算法,执行时间在0.1秒之内,聚类精度高于其它两种算法。

AlgorithmAccuryIterNOTimeavg_Accuryavg_Iternoavg_TimeFCS0.737401450.8275770.737401430.533281WFCM0.819629110.0262100.767109110.030475CWFCS0.965517130.0747860.960212120.075808

表3

实施例四:

我们再分别用FCS、WFCM和本发明提供的CWFCS三个方法对航空发动机气路仿真数据集(加噪)进行实验,结果如表4所示。GasPath数据集是航空发动机气路数据,包括DEGT、DNH、DFF三个特征参数,其中健康数据样本共200个,故障数据样本随机选择5个。

AlgorithmAccuryIterNOTimeavg_Accuryavg_Iternoavg_TimeFCS0.614634240.2901020.614634240.181671WFCM0.6190.0461470.6210.052607CWFCS0.917073150.0237330.86878230.033184

表4

从表4看出,对于GasPath数据集,对于工程应用中受噪声污染的数据有很好的鲁棒性,且对数据更能精确的进行划分,对于这样的数据,利用样本类内紧致性和类间散布性来进行聚类的算法准确率要高于仅考虑类内紧致性的WFCM算法。

实施例五:

本发明还提供了本发明工业控制中的具体应用方法:

首先,必须针对工业控制中的重要具体参数进行状态监视(通常需要设置各类传感器以获得全面的数据),获得传感器采集到的数据后,通过本发明提供的CWFCS方法(步骤一~七)对采集的数据进行分类,再根据分类结果判断工业设备或工艺的当前状态。例如通过传感器对航空发动机进行状态监视,通过对采集的数据进行分类(通过本发明提供的CWFCS方法,步骤一~七),判断航空发动机当前是否是非健康状态。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号