首页> 中国专利> 基于自适应集成半监督费舍尔判别的故障分类方法

基于自适应集成半监督费舍尔判别的故障分类方法

摘要

本发明公开了一种基于自适应的集成半监督费舍尔判别的工业过程故障分类方法,该方法在进行离线建模时,首先对无标签数据进行随机采样,与有标签数据组成半监督随机训练子集。在每次迭代训练子分类器时进行半监督费舍尔降维获得费舍尔判别矩阵,将降维后的有标签样本数据根据贝叶斯统计方法得到后验概率矩阵、该子分类器的融合权重以及下次迭代时有标签数据的样本权重。将有标签数据的后验概率矩阵及其标签作为融合算法K近邻的训练集。在线分类时,调用上述各个子分类器得到在线待测样本的后验概率矩阵,输入到带有权重的融合K近邻分类器中得到最终结果。相比现存方法,本发明提高了工业过程的故障分类效果,更有利于工业过程的自动化实施。

著录项

  • 公开/公告号CN106843195A

    专利类型发明专利

  • 公开/公告日2017-06-13

    原文格式PDF

  • 申请/专利权人 浙江大学;

    申请/专利号CN201710056648.4

  • 发明设计人 葛志强;王虹鉴;

    申请日2017-01-25

  • 分类号G05B23/02(20060101);

  • 代理机构33200 杭州求是专利事务所有限公司;

  • 代理人邱启旺

  • 地址 310058 浙江省杭州市西湖区余杭塘路866号

  • 入库时间 2023-06-19 02:34:26

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-12-04

    授权

    授权

  • 2017-07-07

    实质审查的生效 IPC(主分类):G05B23/02 申请日:20170125

    实质审查的生效

  • 2017-06-13

    公开

    公开

说明书

技术领域

本发明属于工业过程控制领域,尤其涉及一种基于自适应集成半监督费舍尔判别的故障分类方法。

背景技术

过程监测技术作为过程系统工程的重要组成部分,对于保障过程安全及提高产品质量等现代流程工业的核心目标而言,具有重大的研究意义和应用价值。随着过程工业控制技术的不断发展和集散控制系统(DCS)在流程工业中得到了广泛应用,流程工业开始产生了海量的过程数据。因此,基于多变量统计和模式识别的过程监测技术受到了学术界和工业界的普遍关注,成为过程监测领域的研究热点。近二十年来,大量的研究成果和应用随之产生。

工业过程的实际数据往往是比理想的假设前提要复杂得多,例如现代工业过程广泛存在如故障数据数目与正常数据数目极其不均衡、训练样本的标签丢失或者变量丢失等问题。基于聚类或分类的方法在过程监测领域虽然已经取得了不错的进展,但是这些传统的模式识别的故障分类方法对于上述情况的表现并不尽人意。基于监督学习的故障分类方法在面对训练样本较少的情况,会出现学习得到的特征空间对少量样本过拟合的问题。然而,实际工业过程会有大量无标签数据伴随产生,这些数据含有大量对于分析过程信息的有用信息,如果能够有效利用这些信息,那么数据驱动的故障分类方法会得到更优的结果,因此半监督算法的引入是解决这一问题的重要途径。但实际问题是,半监督学习的表现并不稳定,在特定的数据下表现可能还不如有监督学习的效果。集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。分类器融合中的度量层融合属于集成学习的一个分支。本发明采用将半监督学习和一种自适应的集成学习相结合的方法,通过半监督算法利用无标签数据中所包含的大量信息,用集成算法的泛化能力提高半监督算法表现不稳定的缺陷,两种算法的结合可以互为补充泛化出更稳定更准确的学习模型,提高工业过程故障分类的准确率。

发明内容

本发明的目的在于针对现有方法的不足,提供一种基于自适应集成半监督费舍尔判别的故障分类方法。

本发明的目的是通过以下技术方案来实现的:一种基于自适应集成半监督费舍尔判别的故障分类方法,包括以下步骤:

(1)利用系统收集过程正常工况的数据以及各种故障数据组成建模用的有标签训练样本集:假设故障类别为C,在加上一个正常类,建模数据的总类别为C+1,即Xi=[x1;x2;…;xn]i=1,2,…,C+1。其中Xi∈Rni×m,ni为第i类样本的训练样本数,m为过程变量数,R为实数集,Rni×m表示X满足ni×m的二维分布。所以完整的有标签训练样本集为Xl=[X1;X2;…;XC+1],X∈R(∑ni)*m,记录所有数据的标签信息,正常工况下标记标签为1,故障1标签为2,以此类推,即Yi=[i;i;…;i]i=1,2,…,C+1,完整的标签集为Yl=[Y1,Y2,…,YC+1],Yl∈R1×(∑ni)。将这些数据存入历史数据库作为有标签数据集。

(2)利用系统收集若干工况及故障情况未知的数据组成建模用的无标签训练样本集:Xu=[xu1;xu2;…;xuq],Xu∈Rq×m,其中q为训练样本数,m为过程变量数,R为实数集,Rq×m表示X满足q×m的二维分布。将这些数据存入历史数据库作为无标签数据集。

(3)从数据库中调用训练用的有标签数据和无标签数据数据Xl,Xu,对其进行预处理和归一化,使得各个过程变量的均值为零,方差为1,得到新的数据矩阵集为

(4)设定迭代次数即弱分类器个数为G,每次在无标签数据矩阵集中随机抽取α%的数据和有标签数据矩阵集组成训练子集在本次迭代的训练子集和该次迭代的有标签数据权重系数向量αg=[α12,…,α(∑ni)],αg∈R1×(∑ni)下建立不同的半监督费舍尔判别分类器模型,初始权重均为1。

(5)在有标签数据矩阵集下,利用不同的分类器模型和参数,计算每个样本xi的度量矩阵Pi,i=1,2,…,(C+1)*n,并且Pi∈Rg×(C+1),R为实数集,Rg×(C+1)表示X满足g×(C+1)的二维分布并计算下一次迭代时样本的权重系数αg=[α12,…,α(∑ni)],αg∈R1×(∑ni)和该次迭代所得子分类器的权重ωg,重复(4)、(5)两步骤,直至完成G次迭代。

(6)将建模数据和各个模型参数以及各个有标签数据的度量层矩阵存入历史数据库中备用。

(7)在线收集新的过程数据Xnew,并对其进行预处理和归一化使得各个过程变量的均值为零,方差为1,得到分别采用不同的半监督费舍尔判别模型对其进行监测得到度量层矩阵。

(8)将在线过程数据的度量层矩阵和之前得到的有标签数据度量层矩阵及其标签进行K近邻融合,得到待分类过程数据的最终分类结果。

本发明的有益效果是:本发明通过对不同的训练子集进行半监督费舍尔判别分类建模,并在每一次迭代时自适应的调整有标签数据的样本权重,最后对得到的度量层矩阵进行子分类器权重调整和K近邻融合得到分类结果。相比目前的其他故障分类方法,本发明不仅提高了工业过程的监测效果,增加了分类的准确性,使工业生产更加安全可靠,而且在很大程度上改善了单一故障分类方法的局限性,以及分类方法对过程知识的依赖性,增强了过程操作员对过程状态的掌握,更加有利于工业过程的自动化实施。

附图说明

图1为迭代次数G为7时的半监督费舍尔判别度量层融合算法(ESFDA)的分类结果图;

图2为迭代次数G为7时的自适应的半监督费舍尔判别度量层融合算法(Ada-ESFDA)的分类结果图。

具体实施方式

本发明针对工业过程的故障分类问题,该方法,首先在进行离线建模时对大量的无标签数据进行随机采样,与有标签数据组成若干个半监督随机训练子集。在每次迭代训练子分类器时进行自适应的有标签样本权重调整,然后进行半监督费舍尔降维,获得多个费舍尔判别矩阵(由r个费舍尔判别向量组成,r为降维后的维度),并将降维后的有标签样本数据根据贝叶斯统计方法得到后验概率矩阵、该子分类器的融合权重以及下次迭代时有标签数据的样本权重。将有标签数据的后验概率矩阵和对应的标签作为度量层融合算法K近邻的训练样本。在线分类时,调用上述各个半监督费舍尔判别分类器得到每个在线待测样本的后验概率矩阵,输入到带有不同子分类器权重的度量层融合K近邻分类器中得到最终的故障分类结果。

本发明采用的技术方案的主要步骤分别如下:

第一步利用系统收集过程正常工况的数据以及各种故障数据组成建模用的有标签训练样本集:假设故障类别为C,在加上一个正常类,建模数据的总类别为C+1,即Xi=[x1;x2;…;xn]i=1,2,…,C+1。其中Xi∈Rn×m,ni为第i类样本的训练样本数,m为过程变量数,R为实数集,Rn×m表示X满足n×m的二维分布。所以完整的有标签训练样本集为Xl=[X1;X2;…;XC+1],X∈R(∑ni)*m,记录所有数据的标签信息,正常工况下标记标签为1,故障1标签为2,以此类推,即Yi=[i;i;…;i]i=1,2,…,C+1,完整的标签集为Yl=[Y1,Y2,…,YC+1],Yl∈R1×(∑ni)。将这些数据存入历史数据库作为有标签数据集。

第二步利用系统收集若干工况及故障情况未知的数据组成建模用的无标签训练样本集:Xu=[xu1;xu2;…;xuq],Xu∈Rq×m,其中q为训练样本数,m为过程变量数,R为实数集,Rq×m表示X满足q×m的二维分布。将这些数据存入历史数据库作为无标签数据集。

第三步从数据库中调用训练用的有标签数据和无标签数据数据Xl,Xu,对其进行预处理和归一化,使得各个过程变量的均值为零,方差为1,得到新的数据矩阵集为

第四步选取合适的子分类器个数G,G的选取视具体工况数据表现而定,每次在无标签数据矩阵集中随机抽取α%的数据和有标签数据矩阵集组成训练子集在本次迭代的训练子集和该次迭代的有标签数据权重系数向量αg=[α12,…,α(∑ni)],αg∈R1×(∑ni)下建立不同的半监督费舍尔判别分类器模型。具体步骤如下:

(4.1)根据FDA算法计算有监督FDA的类间散度矩阵Sb和类内散度矩阵Sw,计算方法如下所示:

其中权值矩阵与定义为:

其中,权值矩阵αi与αj分别代表第i个样本和第j个样本的样本权重,样本的初始权重均为1,nl为有标签样本个数nu为无标签样本个数。

(4.2)根据无监督降维方法PCA进行全局散度矩阵的计算,整理成与FDA的对应形式,计算方法如下所示:

其中为n×n维矩阵,n为样本总数,且:

(4.3)计算半监督费舍尔判别(SFDA)的正则化类间散度矩阵Srb与正则化类内散度矩阵Srw,计算方法如下所示:

Srb=(1-β)Sb+βSt

Srw=(1-β)Sw+βIm

其中,Im是m维的单位对角矩阵,β∈[0,1]是调整参数,负责设置SFDA的平滑性。当β的值比较大时,SFDA更倾向于无监督学习的PCA。反之,则SFDA更接近FDA。当β的值为两种极端时,会比较特殊:当β=0,SFDA退化为FDA;当β=1,SFDA退化为PCA。

(4.4)进行半监督费舍尔判别向量求解,计算方法如下所示:

半监督费舍尔判别向量同样可以通过求解下面的优化问题得到:

上述的优化问题同样可等价于广义特征值问题:

其中,是广义特征值,而向量w是对应的广义特征向量。将所求得的广义特征值降序排列为相应广义特征向量为w1,w2,…,wm即为半监督费舍尔判别向量q1,q2,…,qm,而这些向量的分类性能依次减弱。

(4.5)选取前r个特征向量,得到费舍尔判别子空间Qr=[q1,q2,…,qr]。

第五步在有标签数据矩阵集下,利用此次迭代的得到的费舍尔判别子空间,计算每个样本xi的度量矩阵Pi,i=1,2,…,(C+1)*n,并且Pi∈Rg×(C+1)。然后计算并更新下一次迭代时样本的权重系数αg=[α12,…,α(∑ni)],αg∈R1×(∑ni),计算该次迭代所得子分类器的权重ωg,随后重复第四步和第五步,直至完成G次迭代,具体步骤如下:

(5.1)通常情况下,正常工况下的数据可假设是满足多变量高斯分布,故障如某些变量阶跃变化或者变量值随机增加的所引发的故障数据也可以认为是满足高斯分布的。假设样本属于每一类的先验概率相等为计算的条件概率密度函数,方法如下:

其中是Ck类样本的均值向量。

(5.2)根据贝叶斯准则,计算属于第i类型的后验概率,方法如下:

(5.3)将每个样本用不同子分类器的半监督费舍尔判别矩阵Qr进行上述运算,计算每个样本xi的度量矩阵Pi,i=1,2,…,(C+1)*n,并且Pi∈Rg×(C+1)

其中pgj表示待分类样本被第g个子分类器判断成第j类的概率。当G次迭代完成时,得到完整的度量矩阵:

最终得到所有样本的度量层矩阵集合Pl=[P1,P2,…,PC+1],Pl∈Rg×(C+1)×(∑ni)

(5.4)利用每个有标签样本的度量矩阵计算样本的权重,令代表本次迭代得到的第i个样本被g个子分类器分为第j类的概率平均值,计算每一个样本权重,公式如下:

其中,αi为第i个有标签样本的权重系数,代表第i个样本被分为其标签类别的概率平均值。

(5.5)计算当前迭代所得子分类器的权重系数ωg,我们定义C(xi)g为子分类器的决策层输出,代表第g个子分类器对第i个样本的分类类别结果,该输出不用于融合算法,只用于调节子分类器的融合权重。

ωg=准确率=故障样本被正确划分的样本总数/样本点总数。

第六步将建模数据和各个模型参数以及各个有标签数据的度量层矩阵存入历史数据库中备用。

第七步收集新的过程数据Xnew,并对其进行预处理和归一化得到将新得到的每一个过程数据采用不同的半监督费舍尔判别模型对其进行监测得到度量层矩阵,具体方法和第五步中(5.1)至(5.3)相同。

第八步将之前得到的有标签数据度量层矩阵及其标签作为K近邻的训练样本集,将待测过程数据的度量层矩阵进行K近邻融合,得到待分类过程数据的最终分类结果。具体步骤如下:

(8.1)初始化k值,如果对于二分类问题k取奇数。将有标签数据的度量矩阵集Pl=[P1,P2,…,PC+1],Pl∈Rg×(C+1)×(∑ni)和数据相应标签Yl=[Y1,Y2,…,YC+1],Yl∈R1×(∑ni)作为度量层K近邻融合算法的训练集。

(8.2)将所有的度量矩阵用子分类器权重进行权重调整:

(8.3)对于待分类的过程样本xnewi的调整后的度量层输出计算其与训练集所有样本的权重调整后的欧氏距离Dij,在其中找出最近的k个样本点。

其中Dij为第i个待分类样本与第j个训练样本间的欧氏距离。

(8.4)计算这k个样本中属于C=(c1,c2,…,cC+1)类的样本个数ki,显然则该待分类样本属于最大值ki的那一类ci

以下结合一个具体的工业过程的例子来说明本发明的有效性。该过程的数据来自美国TE(Tennessee Eastman——田纳西-伊斯曼)化工过程实验,原型是Eastman化学公司的一个实际工艺流程。目前,TE过程己经作为典型的化工过程故障检测与诊断对象被广泛研究。整个TE过程包括41个测量变量和12个操作变量(控制变量),其中41个测量变量包括22个连续测量变量和19个成分测量值,它们每3分钟被采样一次。其中包括21批故障数据。这些故障中,16个是己知的,5个是未知的。故障1~7与过程变量的阶跃变化有关,如冷却水的入口温度或者进料成分的变化。故障8~12与一些过程变量的可变性增大有关系。故障13是反应动力学中的缓慢漂移,故障14、15和21是与粘滞阀有关的。故障16~20是未知的。为了对该过程进行监测,一共选取了44个过程变量,如表1所示。接下来结合该具体过程对本发明的实施步骤进行详细地阐述:

1、采集正常数据以及4种故障数据作为训练样本数据,进行数据预处理和归一化。本实验中分别选择了正常工况以及故障1、2、8、10、14作为训练样本,故障1和故障2都是流4中的成分变化。故障8是由物料流4中的A、B和C的成分有随机变量变化所引起的故障,故障10是由物流2中料C的温度随机变化所带来的故障,故障14是反应器冷却水阀门沾滞引发的故障,是典型的非线性故障。可以看出这三种类型的故障的引发原因各不相同,其中故障14是常见的非线性故障类型。采样时间为3min,其中正常工况含有标签样本120个样本,其余故障分类分别选择有标签样本20个。

2、采集无标签数据,使样本的标签率σ=20%,设置迭代次数G,将无标签数据随机采样G次,每次取70%的无标签数据,和有标签数据一起组成子分类器训练集。

3、在每次迭代时对每个子训练集进行模型训练,求得半监督费舍尔判别向量矩阵,实验中选取r=5。

4、对训练样本集中的有标签数据进行半监督费舍尔判别分类,得到所有有标签数据的度量层矩阵,下一次迭代时的样本权重和子分类器权重。将有标签度量层矩阵和其标签集作为度量层融合算法K近邻的训练集。

5、在线分类测试

收集与训练数据不同的样本数据作为在线分类的测试数据,包括正常工况数据共C+1类,每一类数据为Xtj=[xt1;xt2;…;xtN],j=1,2,…,C+1,实验中C为5。其中正常测试样本取100个,其余各工况各选50个。

先对在线测试数据进行归一化处理,将处理后的样本输入到每个子分类器中,得到测试样本的度量层矩阵。将测试样本的度量层矩阵放入带权重的K近邻方法中进行度量层融合得到最终的分类结果。

从图1和图2的对比中可以看出,自适应的集成半监督分类算法要优于集成半监督分类算法,本算法对分类效果的提升比较明显。

表1:监控变量说明

变量编号测量变量变量编号测量变量1A进料流量22分离器冷却水出口温度2D进料流量23物流6中A摩尔含量3E进料流量24物流6中B摩尔含量4A+C进料流量25物流6中C摩尔含量5再循环流量26物流6中D摩尔含量6反应器进料流速27物流6中E摩尔含量7反应器压力28物流6中F摩尔含量8反应器等级29物流9中A摩尔含量9反应器温度30物流9中B摩尔含量10排放速度31物流9中C摩尔含量11产品分离器温度32物流9中D摩尔含量12产品分离器等级33物流9中E摩尔含量13产品分离器温度34物流9中F摩尔含量14产品分离器塔底流量35物流9中G摩尔含量15汽提塔等级36物流9中H摩尔含量16汽提塔压力37物流11中D摩尔含量17汽提塔塔底流量38物流11中E摩尔含量18汽提塔温度39物流11中F摩尔含量19汽提塔流量40物流11中G摩尔含量20压缩机功率41物流11中H摩尔含量21反应器冷却水出口温度

上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明做出的任何修改和改变,都落入本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号