首页> 中国专利> 基于网络分割的故障诊断谱聚类方法

基于网络分割的故障诊断谱聚类方法

摘要

本发明公开了一种基于网络分割的故障诊断谱聚类算法,该方法利用节点和关系构成的网络描述故障样本特征,把故障诊断建模为网络分割;借鉴综合评价“类内相似度大,类间相似度小”的最小最大切判据构造分割的目标函数;基于谱图理论,通过谱聚类方法对目标函数最优化求解;该算法能以更快的运算速度提取状态特征,并获得较高的诊断正确率。UCI标准数据集和一个四级压缩机故障诊断实施例验证了该算法的快速和有效。

著录项

  • 公开/公告号CN101178703A

    专利类型发明专利

  • 公开/公告日2008-05-14

    原文格式PDF

  • 申请/专利权人 西安交通大学;

    申请/专利号CN200710019172.3

  • 发明设计人 杜海峰;王娜;庄健;张进华;

    申请日2007-11-23

  • 分类号G06F17/00(20060101);G06N1/00(20060101);

  • 代理机构61200 西安通大专利代理有限责任公司;

  • 代理人李郑建

  • 地址 710049 陕西省西安市咸宁路28号

  • 入库时间 2023-12-17 20:11:07

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-01-15

    未缴年费专利权终止 IPC(主分类):G06F17/00 授权公告日:20100519 终止日期:20121123 申请日:20071123

    专利权的终止

  • 2010-05-19

    授权

    授权

  • 2008-07-09

    实质审查的生效

    实质审查的生效

  • 2008-05-14

    公开

    公开

说明书

技术领域

本发明属于故障诊断领域,涉及一种聚类方法在故障诊断领域的应用——基于网络分割的故障诊断谱聚类方法。该方法可用于解决故障诊断中的故障数据特征提取及故障识别和分类问题。

背景技术

故障诊断本质上是模式识别问题,即根据采集到的原始数据,通过分析数据内隐含的状态特征,对正常和异常(故障)状态进行识别和区分。把数据样本(可观测量)分成单独的类,每一个样本类对应一种设备状态。因此,故障诊断实际上要解决模式分类/聚类问题。

故障诊断应用常常面临下列情况:i)获得大量未标记的数据样本;ii)待分类的模式的性质会随着时间发生变化,例如系统状态由正常变为某种故障;iii)不知道待处理的数据样本的具体情况,需要训练分类器。面对这些问题,无监督的聚类方法更能发挥作用,因此成为解决故障诊断问题的重要手段之一。

传统的统计分析聚类方法求解故障诊断问题通常假设样本的概率密度的函数形式已知,例如,k-means聚类,混合模型聚类方法等,此类方法往往只能解决某些特定数据结构的聚类问题,例如凸形分布数据;而且,聚类所形成的类和类之间没有任何联系。层次聚类很好的解决了这个问题。“合并”和“分裂”两种途径都能在不同层次上揭示数据的内部结构,例如,判定树方法。随着待诊断系统复杂性的不断增加,传统的聚类分析在描述复杂数据结构,提取状态特征,获得准确的诊断结果方面存计算时间复杂度高、算法实现困难等不足。而人工智能技术,包括神经网络,模糊数理逻辑,进化算法,人工免疫系统等用于构成聚类方法,在某种程度上解决了传统故障诊断方法依赖模型,诊断效果一般的问题。例如,神经网络聚类,模糊k-means聚类,免疫网络聚类等。但是这些方法或多或少存在着随机性,造成每次诊断结果不确定。

借助图论,网络可以很好地刻画数据点及其之间的关系,适合表示复杂的数据结构。如果把故障数据样本作为“节点”,数据样本之间的联系作为“关系”,故障数据样本就可以利用网络拓扑结构表示,而故障分析可以利用网络分析方法实现。网络结构中对应同一状态的节点之间关系紧密,而对应不同故障状态的节点之间关系松散。从而,故障状态聚类就等同于基于节点的关系把网络“分裂”成不同的子网络,每个子网络代表一种状态。

图和网络是两个非常接近的概念,在很多场合下可以互换,网络分割很容易转换为图分割来处理。模式识别已经发展了基于图论的聚类方法,尽管这些方法在数据结构描述方面极具优势,但由于图分割问题的组合本质,对其划分判据求最优解是一个NP难问题。通常的解决措施是考虑问题的连续放松形式,即利用谱图理论获得逼近解,把原问题转化为求解矩阵的特征值和特征向量,形成了谱聚类算法。与其他聚类方法相比,谱聚类具有实现简单,可以聚类非凸分布的数据,避免了高维特征向量引起的奇异性,以及本质上不会遇到局部最优问题等优点,因此受到越来越多的关注,并已广泛应用于图像分割等模式识别领域。但由于其计算复杂度较大,且缺乏对算法实际应用的指导意见和可行思路,目前在故障诊断领域的应用未见文献报道。

发明内容

针对已有技术存在的缺陷或不足,即描述复杂数据结构能力、算法确定性、运算复杂度等多方面要求难以同时满足的矛盾,本发明的目的在于,提出一种基于网络分割的谱聚类故障诊断聚类方法,以达到增强故障诊断数据知识描述能力、获得确定性诊断结果,发挥谱聚类算法的优势,并降低传统谱聚类算法计算复杂度。

为了实现上述任务,本发明采取如下的技术解决方案:

一种基于网络分割的故障诊断谱聚类方法,该方法从网络/图的角度描述复杂故障诊断的数据结构,并利用网络分析方法分析故障,将故障诊断问题建模为网络分割,构造网络分割目标函数,利用谱图理论进行求解,具体实现步骤如下:

步骤一,建立故障诊断的网络模型,网络模型的建立有两个基本要素:节点和节点之间的关系,节点对应故障数据样本,而它们之间的关系用相似度来描述:相似度描述样本之间的关系,它是基于样本之间的距离描述的;用欧式距离满足两个样本之间距离越大,相似度越小;反之相似度越大;

步骤二,构造网络分割目标函数,网络分割目标函数的构造兼顾类内相似度大,类间相似度小;借鉴最小最大切判据形成网络分割目标函数;

步骤三,初始化:设定算法终止条件,给定算法运行阈值参数;

步骤四,算法终止条件判断:如果满足终止条件就结束算法,否则,继续执行步骤五;

步骤五,对网络进行两划分,返回步骤四。

所述的建立故障诊断的网络模型,具体做法是:令检测到的故障系统可观测量x(每个x有p个属性)的取值范围全体构成数据样本空间X,每一个可观测量xi作为“节点”,两个可观测量xi与xj之间的联系作为“关系”,数据样本空间X表示成加权无向网络/图G(V,A),V={x1,x2,......,xm}为图的顶点,加权边A={aij}表示xi与xj之间的相似度。故障数据聚类的实现转换为对加权无向网络/图节点进行聚类,即对G进行分割。

所述的构造网络分割目标函数,基本思路是:对于故障系统的各种状态,显然有对应同一状态的数据之间相似度大,而对于不同状态的数据之间相似度小,综合考虑类内类间关系,目标函数应反映最优化的“类内相似度大,类间相似度小”。

所述的网络两划分,是指最优化网络分割目标函数过程。最优化判据是一个NP难问题,在实际求解中,通常利用谱图理论将问题放松到实数域求解,获得一个逼近的离散解。定义D为度矩阵,D(i,j)=Σjaij,Rayleigh定理可以证明对应于矩阵P=D-1A的第2最大特征值的特征向量即为上述目标函数的最优解。

故障诊断的实现即对故障诊断网络不断进行分割,直到满足一定的终止条件停止,通过以上5个步骤基于网络分割的故障诊断谱聚类算法得到最终的聚类结果。

本发明带来的技术效果是:

1.提出了故障诊断的网络模型和故障识别的指标

从网络角度研究故障诊断诊断,可以同时考虑故障变量和数据样本之间的关系,将故障诊断的属性分析和关系分析结合起来,有利于全面系统地认识故障诊断问题;而基于网络的故障模式识别指标的提出,可以定量地探讨故障模式之间的关系,为故障诊断准确性的提高提供保障。

2.谱聚类算法的应用及其改进

谱聚类算法是近几年来聚类研究的热点,有严格的理论基础并有不少实际应用,采用谱聚类算法解决故障诊断网络分割,可以从其它领域的应用中借鉴有益的经验。谱聚类算法的缺点在于计算复杂度太高。分析发现造成这种情况的原因主要是寻找最优分割点的过程计算量大。对该过程的计算方式进行改进,降低算法的计算复杂度。

本发明与现有技术相比具有以下特点:

1.计算复杂度低

传统谱聚类算法寻找最优分割点的过程实质上是穷举搜索过程,计算复杂度约为O(3n3),n为样本数目。对于数据量较大的故障诊断问题,很难满足其对运算速度的要求。因此本发明采用效果相同,运算速度较快的k-means聚类对上述网络分割实现的步骤4进行改进。k-means方法虽然在理论上也应该穷举所有可能划分,但实际上,采用了启发式方法,用每类的平均值来表示该类,计算复杂性约为O(nkt),n为样本数目,k为聚类数目,t为迭代次数(一般t<<n),能有效降低运算量。

2.具有严格的理论基础

以最小最大切判据为例,可以将图的两划分理解为求指示向量y,yi=1iA-1iB.这样最小最大切判据可以改写成如下表达式:

min>(A,B)=minyTLyyTDy-12yTLy

求解指示向量y,使它最小,变形为:

minMMcut(A,B)=minyTLyyTDy1-12yTLyyTDy

等价于:

minyTLyyTDy=minyT(D-S)yyTDy

等价于:

maxyTSyyTDy

即,求解指示向量y,使它最大。

y1=D12y,则:maxyTSyyTDy=maxy1T(D-12SD12)Ty1y1Ty1

将y1放松到连续值,根据Rayleigh定理可知,最大值为矩阵的第2最大特征值λ2,最优解y1为特征值λ2对应的特征向量x1,此时y=D-12x2.进一步我们可证明对于任意特征值λi和相应的特征向量xi,存在着相应的特征值λi和特征向量,通过上面的理论分析,即可证明能有效找到划分。

3.仿真试验性能好,检测方法优越

为了验证本发明的基于网络分割的故障诊断谱聚类方法的优越性,将其与专家系统与遗传分类算法,以及经典谱聚类算法在UCI机器学习标准数据集和一个四级压缩机故障系统中的性能进行了比较。试验结果表明与专家系统和遗传分类算法相比,基于网络分割的谱聚类算法在大大减少特征样本的情况下,有效提高了分类正确率;与经典谱聚类算法相比,明显降低了计算复杂度,并且算法不受样本初始分布的影响,更加稳定。

附图说明

图1是多级压缩机故障系统示意图;

图2是本发明用于部分UCI标准数据集分类的阈值影响结果;

图3是本发明用于多级压缩机故障诊断的阈值影响结果;

图2和图3中,图(a)表示阈值对正确率的影响,图(b)表示阈值对特征数据个数的影响;图(c)表示阈值对运算时间的影响;

为了验证本发明的基于网络分割的故障诊断谱聚类方法的优越性,以下结合实施例对本发明作进一步的详细描述。

具体实施方式

本发明的基于网络分割的故障诊断谱聚类方法应用于UCI(Universityof California,Irvine)标准数据集的聚类和一个四级压缩机故障数据的诊断问题。UCI标准数据集是模式识别的公用数据,便于和目前已知算法探测结果进行比较;四级压缩机故障数据为本发明提供实际应用平台;通过对比本发明和传统谱聚类算法提取故障特征数据数目和诊断正确率,可以检验本发明发现故障状态的能力。

针对上述具体问题,对本发明设计的基于网络分割的故障诊断谱聚类方法具体描述如下:

1)建立故障诊断的网络模型:网络构成具有两个基本要素,节点和节点之间的关系。节点对应故障数据样本,而它们之间的关系用相似度来描述。相似度描述了样本之间的关系,通常是基于样本之间的距离描述的。常用欧式距离,满足两个样本之间距离越大,相似度越小;反之相似度越大。

2)构造网络分割目标函数:已有谱聚类研究中综合考虑反映类内类间的有规范切判据和最小最大切判据。借鉴最小最大切判据形成网络分割目标函数,表示为:

minMMcut(C,C)=cut(C,C)cut(C,C)+cut(C,C)cut(C,C)

其中,C和为两个分离的子集,cut(C,C)=ΣiC,jCaij,cut(C,C)=Σi,jCaij,cut(C,C)=Σi,jCaij.

3)初始化:设定算法终止条件,给定阈值σ;

4)算法终止条件判断:如果满足终止条件就结束算法,否则,继续执行第5)步;

5)对网络进行两划分:计算相似度矩阵A、度矩阵D以及矩阵P=D-1A;计算P的特征向量,求出第2最大特征值λ2对应的特征向量r2;将r2中各元素按递减顺序排列,利用k-means两划分数据,得到两个集合M1和M2和对应的判据值。

分别将M1和M2作为代分割网络,返回步骤4)。

数据说明:

i)UCI标准数据集:从UCI机器学习数据库中选取Iris、Wine、Breast-cancer-wisconsin(Breast-W)、Pima-indians-diabetes(Diabetes)等4个数据集合做测试。Iris数据集为用萼片和花瓣的长度、宽度来区分三种不同的花(Setosa,Versicolour,Virginica)。数据集共150个数据样本,每一类50个数据样本。Wine数据集记录在意大利相同地区葡萄酒制作的化学分析结果,分析结果确定了三种葡萄酒中每种的13个属性的量值,共有178个数据样本。Breast-W数据集收集683个肿瘤患者的病例样本,每个样本包含9个特征属性,由这9个属性判断样本是良性还是恶性。Diabetes数据集对比马印第安人是否患糖尿病进行描述。共768个样本,每个样本包括心脏舒张血压,三头肌皮肤褶皱厚度等8个属性。

ii)多级压缩机故障诊断:多级往复式压缩机是一个多因素、强耦合、强非线性、难以建模的复杂系统,从其纷繁复杂的测量数据中获得有用的故障信息相当困难,而有用的故障信息获取对于压缩机故障状态又起到决定性作用。对一个四级压缩机进行试验,如图1所示,在其第1级排气阀故障,第2级吸气阀故障以及正常的情况下,分别获得1022、806、2462组数据,每组样本包含43个变量,采样间隔60秒。初步分析表明,其中有6个变量仅用来标定采样顺序,余下的37个变量才与系统状态有关,是系统的状态变量,在37维故障数据中,有8维比较有代表性,分别是每一级的压力p1、p2、p3、p4和温度T1、T2、T3、T4。对这8维数据进行聚类。

试验说明:试验包括算法性能测试和参数影响测试两部分。为了消除各状态变量在量纲和数值区间上的差别,对数据集进行归一化处理,使所有变量的取值落在[0,1]区间。

算法性能测试试验过程为:每次试验随机选择每类数据中的一半作为训练数据,通过谱聚类方法获得特征数据;其余作为测试数据,通过“近邻原则”得到最终的聚类结果。每个数据集均进行50次独立试验,分类正确率采用下式计算:

α=nrnte×100%

其中,nr为正确分类的数据数目,nte为测试数据总数目。

参数影响试验:基于网络分割的故障诊断谱聚类方法中仅有一个参数——阈值σ。对阈值影响进行分析。每次试验随机选择每类数据中的一半作为训练数据,其余作为测试数据;阈值从0.1到5以步长0.1变化。每个数据集均进行50次独立试验。

试验结果:

UCI部分数据集算法性能测试结果如表1所示。

表1试验结果

    方法阈值    统计量  Iris Wine Breast-W Diabetes  Shi和Malik的  规范切方法    1α/%平均值  95.15  96.33    96.26    71.23方差  2.62  1.84    0.99    2.19特征数据/个平均值  5.88  4.80    19.92    18.28方差  0.33  0.73    1.44    1.54运算时间/s平均值  0.09  0.10    2.92    3.98  Ding的  最小最大切方法    2α/%平均值  95.57  96.44    96.50    72.24方差  2.83  1.18    0.76    2.09特征数据/个平均值  5.60  4.12    17.48    16.88方差  0.64  0.45    1.11    1.73运算时间/s平均值  0.39  0.27    2.50    3.99  Sanguinetti的  改进谱聚类算法    -α/%平均值  95.28  95.71    96.37    70.99方差  1.71  1.93    0.73    2.30特征数据/个平均值  14.62  17.36    18.32    19.68方差  2.33  1.71    3.47    1.89运算时间/s平均值  1.34  1.79    10.11    8.40  本发明算法    2α/%平均值  92.83  95.93    96.87    64.71方差  3.70  2.14    0.82    3.40特征数据/个平均值  4.54  3.46    7.04    4.08方差  0.93  0.61    1.73    0.83运算时间/s平均值  0.14  0.13    0.69    0.655

试验表明,本发明算法与其它谱算法在正确率方面差异很小,但本发明方法取得这样的诊断效果是在很短的时间内,以及提取较少特征数据的前提下获得的。另外,每次试验采用随机选取的方式确定数据集,试验结果统计方差充分验证了算法的稳定性和对各种情况的适应能力。

与专家系统以及遗传分类算法在UCI数据集上的试验结果比较如表2所示:

表2与其它算法试验结果比较

    方法    统计量  Iris  Breast-W  Diabetes  RISE    α/%平均值  92.67    91.85    65.63方差  6.00    7.00    30.00    特征数据/个平均值  11.9    32.8    229.1  SIA    α/%平均值  92.00    84.84    69.14方差  1.00    2.00    27.00    特征数据/个平均值  7.00    16.50    440.90  ESIA    α/%平均值  95.33    94.71    70.18方差  3.00    4.00    21.00    特征数据/个平均值  6.40    23.90    36.30  本发明算法    α/%平均值  92.83    96.87    64.71方差  3.70    0.82    3.40    特征数据/个平均值  4.54    7.04    4.08

试验表明,本发明算法在大大减少特征数据个数的情况下,得到较高的故障诊断正确率;而且算法更加稳定。

如图2所示阈值影响结果,表明阈值对正确率、特征数据个数以及运算时间都有较大的影响:1)阈值过小时,算法判据无解,无法对数据进行划分。2)当阈值大到一定程度时,算法判据的解受阈值影响。此时,随着阈值的增大,能够多次对数据集进行细分,由此得到较多的特征数据样本,某种程度上提高了聚类正确率,但多次划分明显增大了运算量。所以,一般地,在保证特征数据个数的情况下应该在阈值有效范围内取相对小的值。

多级压缩机故障诊断试验结果如表3所示:

表3试验结果

    方法阈值    统计量    α/%特征数据/个运算时间/s   平均值  方差  平均值方差  平均值  Ding的  最小最大切方法  1.3   94.95  0.79  43.64  5.93    654.7  本发明算法  1.3   92.42  2.24  31.36  4.29    18.03

为了比较,试验中取相同阈值。由试验结果可知,本发明算法和传统最小最大切算法在正确率和特征数据个数相差不大的情况下,本发明算法的运算速度明显提高。而且,尽管50次试验的训练样本和测试样本均为随机选取,但正确率方差很小,充分验证了本发明算法不受数据初始分布的影响。

如图3所示阈值影响结果,和标准数据集测试结果相同;表明阈值太小时无法进行故障状态识别;阈值达到一定有效值后,阈值越大,分割次数越多,提取的特征数据个数越多,运算时间越长,正确率越高;但阈值再大,正确率并没有明显提高,而付出的代价(提取的特征数据个数和运算时间)却明显增大。阈值的选择应该兼顾正确率和代价。

UCI标准数据机和一个多级压缩机故障诊断实例表明,本发明提出的基于网络分割的故障诊断谱聚类算法能在较短的运算时间内提取故障状态特征,进一步完成故障分类与识别,获得较高的诊断正确率。该方法是一种实用有效的故障诊断方法。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号