首页> 中国专利> 基于协同训练偏最小二乘模型的工业过程软测量建模方法

基于协同训练偏最小二乘模型的工业过程软测量建模方法

摘要

本发明公开了一种可用的训练样本个数较少的条件下工业生产过程的软测量研究方法,用于在建模数据较少条件下的软测量建模并实现对于产品信息的预测。本发明利用基于协同训练的偏最小二乘学习方法,建立了一个有效的线性预测模型,并克服了工业生产过程采样数据过少的情况下模型精度不高的问题,提高了针对该过程建立的模型预测准确率和性能,从而使得工业生产过程更加可靠,产品质量更加稳定。

著录项

  • 公开/公告号CN104914723A

    专利类型发明专利

  • 公开/公告日2015-09-16

    原文格式PDF

  • 申请/专利权人 浙江大学;

    申请/专利号CN201510266557.4

  • 发明设计人 包亮;葛志强;

    申请日2015-05-22

  • 分类号G05B13/04(20060101);

  • 代理机构33200 杭州求是专利事务所有限公司;

  • 代理人邱启旺

  • 地址 310058 浙江省杭州市西湖区余杭塘路866号

  • 入库时间 2023-12-18 10:50:22

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-05-08

    未缴年费专利权终止 IPC(主分类):G05B13/04 授权公告日:20181016 终止日期:20190522 申请日:20150522

    专利权的终止

  • 2018-10-16

    授权

    授权

  • 2015-10-14

    实质审查的生效 IPC(主分类):G05B13/04 申请日:20150522

    实质审查的生效

  • 2015-09-16

    公开

    公开

说明书

技术领域

本发明属于工业过程预测与控制领域,尤其涉及一种协同训练算法与偏最小二乘算法的软测量建模方法。

背景技术

在传统工业过程中存在着许多无法或者难以用传感器直接测量的变量如产品反应速率、产品成分含量等等,而这些参数对于提高产品质量和保证安全生产有重要的作用,是工业生产过程中必须加以严格监视和控制的参数。虽然这些变量可以用在线分析仪表进行检测,但是一方面需要大量的投资,另一方面可能因为有较大的测量滞后而使得调节不够及时,从而使得产品质量难以得到保证。这些对于工业生产过程具有重要作用的变量我们称之为主导变量,其他的一些易于测量的变量我们称之为辅助变量。软测量指的是通过建立工业过程变量之间的数学模型,实现利用辅助变量预测主导变量信息的技术方法。近年来,工业过程的软测量得到了越来越多的重视。

传统的工业过程软测量建模方法除了基于机理模型的方法以外,大多数采用多元统计分析和机器学习的方法,例如主元回归PCR和偏最小二乘PLS等,在机理模型难以获取的情况下,基于数据驱动的多元统计分析方法已经成为半导体过程监测的主流方法。但是,传统的多元统计方法在训练样本数目较少的情况下,所建立起的模型的预测精度往往不能够达到有效的精度;此外,传统多元统计学习方法建模时所用的数据往往都是那些辅助变量有对应主导变量信息的数据,没有对应主导变量仅有辅助变量信息的数据往往被直接忽视了。在工业过程中,基于上面所述的主导变量难以检测等原因,工业过程中存在着大量的不包含有主导变量仅有辅助变量信息的数据,这些数据中包含着大量的有用信息,直接弃之不用造成了浪费。

相比之下,半监督学习方法通过使用有标签数据建立初始模型,然后利用无标签数据对模型进行参数优化与调整,最终达到提高模型精度的效果。本发明主要利用了半监督学习中的协同训练算法,结合偏最小二乘模型,找到了一种在辅助变量个数较多的条件下进行模型学习的方法,并成功利用了无标签数据提升了模型的精度,表明了半监督学习方法应用到软测量研究中具有绝对的可能性与相当的有效性,也为今后软测量建模的研究提供了一个新的方法和思路。

发明内容

本发明的目的在于针对现有技术的不足,提供一种基于协同训练算法的偏最小二乘回归软测量建模方法。

本发明的目的是通过以下技术方案来实现的:一种基于协同训练算法的偏最小二乘软测量模型的建立,主要包括以下几个步骤:

(1)利用集散控制系统以及离线检测方法,按生产批次收集工业生产过程的数据组成建模用的训练样本集。对于每个批次的训练样本集,一部分为既包含主导变量数据也包含辅助变量信息的样本集D∈RK×J,其中,D为有标签数据集,K为采样数据点个数,J为变量个数;另一部分为只包含辅助变量数据的样本集X∈RN×2M,其中,X为无标签数据集,N为采样数据点数,2M为变量个数,将这些数据存入历史数据库。

(2)对于每个生产批次的有标签数据,沿着时间点方向对每一个数据矩阵进行排列,得到新的数据矩阵,并对其进行预处理和归一化,即使得各个过程变量的均值为零,方差为1,得到新的数据矩阵集为

(3)基于得到的二维数据矩阵按照主导变量和辅助变量分类标准,选取其中的主导变量作为预测目标因变量集选取其中的辅助变量作为自变量集则该二维数据矩阵可以重新描述为:

(4)对于有标签数据集,对其自变量集进行均分,前一半自变量作为第一自变量视图:后一半自变量作为第二自变量视图:得到两组新的有标签数据集以及并按照同样的变量拆分方法对于无标签数据进行拆分,得到两组新的无标签数据集

(5)首先,利用建立初始的模型PLS1,利用建立初始的模型PLS2,然后,不断迭代使用无标签数据更新模型训练数据,当达到一定的终止条件时,终止迭代。一般选取的终止条件为迭代达到一定次数抑或是无法继续找到置信度足够高的样本。

(6)将建模数据和各个模型参数存入历史数据库和实时数据库中备用。

(7)收集新的过程数据,并对其进行预处理和归一化。

(8)采用基于协同训练算法的偏最小二乘方法对工业过程的变量进行预测,实现过程监控与控制。

本发明的有益效果是:本发明通过对于工业数据建立起的软测量模型,不但利用了传统软测量方法建模所利用的有标签数据,也利用了传统软测量建模方法所不能利用的无标签数据,在训练样本相同的情况下,能够建立起比传统软测量模型精度更高的预测模型。相比目前的其他软测量建模方法,本发明不仅可以大大提高训练样本数目极少的情况下模型的预测效果,而且在很大程度上改善了监测方法对过程知识的依赖性,增强了过程操作员对过程的理解能力和操作信心,更加有利于工业过程的自动化实施。

附图说明

图1是本发明方法和传统偏最小二乘方法对在不同有标签样本比例下建模预测结果的RMSE对比图;

图2是在有标签样本比例为30%的情况下样本真实值、协同训练偏最小二乘算法预测值和偏最小二乘算法的预测值的曲线对比图;

图3是上述两种方法预测结果与真实值之间的误差对比图。

具体实施方式

本发明是针对工业过程中训练数据较少情况下的软测量建模问题,首先利用集散控制系统收集有标签与无标签数据,利用有标签数据建立初始的具有一定差异性的两个模型,然后在初始模型的基础上,通过不断的迭代循环,逐步的将置信度最高的无标签数据转换为有标签数据并加入到训练集中来,逐渐扩大训练集的样本数目,最终达到提高模型精度的效果。本发明不仅提高了工业过程的软测量模型预测效果,增强了过程操作员对过程状态的掌握,使工业生产更加安全,产品质量更加稳定;而且很大程度上改善了软测量建模方法对过程知识的依赖性,更加有利于工业过程的自动化实施。

下面结合附图和具体实施例对本发明进行详细说明。

本发明一种基于协同训练算法的偏最小二乘软测量建模方法,该方法针对工业过程的软测量建模问题,首先利用集散控制系统以及离线检测方法收集包含主导变量信息与辅助变量信息的有标签数据和仅包含辅助变量的无标签数据,然后利用有标签数据建立两个具有相当差异性的初始模型,然后再初始模型的基础上利用无标签数据对两个模型及其训练集进行迭代更新,当达到一定的迭代次数或是终止条件之后,停止对于模型的更新,并利用最终的训练数据建立新的模型,实现对于工业过程的软测量建模。把模型参数存入数据库中备用。

本发明采用的技术方案的主要步骤如下:

第一步,利用集散控制系统以及离线检测方法,按生产批次收集工业生产过程的数据组成建模用的训练样本集,对于一些无法进行在线检测的主导变量,则在离线进行测量后将测量后的变量信息与其对应的辅助变量信息一起存储到数据集中。在这样的条件下,对于同一个批次的训练样本集,一部分为既包含主导变量数据也包含辅助变量信息的样本集D∈RK×J,其中,D为有标签数据集,K为采样数据点个数,J为变量个数;另一部分为只包含辅助变量数据的样本集X∈RN×2M,其中,X为无标签数据集,N为采样数据点数,2M为变量个数,将这些数据存入历史数据库。

第二步,对于每个生产批次的有标签数据,对采集到的过程数据进行预处理,剔除野值点和明显的粗糙误差数据。得到新的数据矩阵集为D∈RK×J。基于得到的二维数据矩阵D∈RK×J

第三步,按照主导变量和辅助变量分类标准,选取其中的主导变量作为预测目标因变量集选取其中的辅助变量作为自变量集则该二维数据矩阵可以重新描述为:

第四步,对于有标签数据集中的每个样本(xi,yi),对其自变量集进行均分,前一半作为第一视图得到一个新样本:(xatt1,i,yi),后一半作为第二视图,也得到一个新样本:(xatt2,i,yi)。对于整个样本集,也使用同样的分配方法进行分割获取这样可以得到两组新的有标签数据集以及然后按照同样的变量拆分方法对于无标签数据进行拆分,得到两组新的无标签数据集

第五步,不失一般性,先对建立初始的PLS模型:对X和Y进行中心化,即使各个变量的均值为0,方差为1,得到一组新的数据E0,F0,并记录其均值与方差分别为Mx,Sx,My,Sy。然后,分别提取两变量组的第一对成分,使之相关性最大:

假设从两组变量分别提出第一对成分为t1和u1,其中t1是自变量集X的线性组合,u1是因变量集Y的线性组合,为了回归分析的需要,要求t1和u1尽可能多的提取所在变量组的变异信息以及二者之间的相关程度达到最大。现在由E0,F0,计算第一对成分的得分向量,记为则有

>t^1=E0w1=x11...x1M......xK1...xKMw11w12...w1M=t11t21...tK1>

>u^1=F0v1=y11...y1L......yK1...yLv11v12...v1M=u11u21...uL1>

第一对成分t1和u1的协方差可以用第一对成分的得分向量的内积来计算,故而有

>θ1=t^1,u^1=E0w1,F0v1=w1TE0TF0v1maxw1Tw1=||w1||2=1,v1Tv1=||v1||2=1>

此时,只需要计算M×M矩阵的最大特征值及其对应的特征向量,且的最大特征值即为θ1的平方,相应的单位特征向量即为所求解的w1,而v1可以由得到。接下来,建立y1,y2…yL对于和x1,x2…xM对于t1的回归:

>E0=t^1α1T+E1F0=u^1β1+F1>

其中,

>α1=E0Tt^1/||t^1||2β1=F0Tt^1/||t^1||2>

>E^0=t^1α1T,F^0=t^1β1T,>则残差矩阵为>E1=E0-E^0,F1=F0-F^0,>如果残差矩阵F1中元素的绝对值近似为0,则认为用第一个成分建立的回归式精度已经满足要求了,可以停止抽取成分,否则则用残差矩阵E1,F1代替E0,F0重复进行上述步骤即可。

假设最终共提取了r个成分,则有

>E0=t^1α1T+...+t^rαrT+ErF0=t^1β1T+...+t^rβrT+Fr>

此时,得出Y的预测结果为Y=t1β1+…+trβr,将tk=wk1x1+…+wkMxM(k=1,2…r)代入得到L个因变量的偏最小二乘回归方程式:

yj=bj1x1+…+bjmxm,(j=1,2…L)

记回归系数矩阵为>B=b11,b12...b1Mb21,b22...b2M...bL1,bL2...bLM.>此时,记此模型在原有的训练集上的均方误差为RMSEorig

对于无标签数据集,对于每个样本点SULa,att1:xatt1,i,(i=1,2…N),利用Mx,Sx对其进行标准化,即>X=(X-Mx)/Sx,>由>Y=X×BT*Sy+My,>得到一组新的数据集将此N个样本点逐个添加到PLS1的训练集中去,每次可以训练得到一个新的PLS1模型,每个新的PLS1模型在原有的训练集上都可以得到一个新的RMSE,分别记为RMSEi,(i=1,2…N)。分别计算这N个RMSE与RMSEorig的差值:RMSEdif,i=RMSEorig-RMSEi,(i=1,2…N),若所有RMSEdif均小于0,则认为已经达到终止条件,停止迭代,否则,取使得RMSEdif最大的新加标签样本作为置信度最高的样本,亦即yj=xj×BT,将样本xj对应的第二视图信息及其预测值yj作为新的有标签样本(xatt2,j,yj)添加到PLS2的训练集中去,更新PLS2的训练集,并从无标签数据集中剔除样本点xj

利用新的PLS2模型对剩下的无标签数据继续添加标签,并将所得的置信度最高的新加标签样本添加到PLS1的训练集中去,再训练出新的PLS1模型选取置信度最高的样本添加到PLS2的训练集中去,如此迭代循环;

当达到循环停止条件后,亦即达到一定的循环次数或无法找到新的满足条件的无标签样本,此时可以获取两组新的有标签数据集,利用这两组有标签数据训练得到最终的PLS1和PLS2,将这两个模型的预测结果进行加权,得到最终的预测结果。

第六步:将建模数据和各个模型参数存入历史数据库和实时数据库中备用。

第七步:收集新的过程数据,并对其进行预处理和归一化。

对于过程中新收集到的数据样本,除了对其进行预处理之外,还有采用建模时的模型参数对该数据点进行归一化,即减去建模均值和除以建模标准差。

第八步:采用基于协同训练算法的偏最小二乘方法对工业过程的变量进行预测,并根据预测结果实行对于工业过程的监控与控制。

以下结合一个具体的工业过程的例子来说明本发明的有效性。该过程的数据来自美国TE(Tennessee Eastman——田纳西-伊斯曼)化工过程实验,原型是Eastman化学公司的一个实际工艺流程。目前,TE过程己经作为典型的化工过程故障检测与诊断对象被广泛研究。整个TE过程包括41个测量变量和12个操作变量(控制变量),其中41个测量变量包括22个连续测量变量和19个成分测量值,其中,22个连续测量变量每3分钟被采样一次,而19个成分变量的采样间隔分6分钟与15分钟两种,所有的过程测量值都包含有高斯噪声。为了实现对于成分变量的预测,我们选取了表1中的16个变量作为输入变量,选取流9中的成分变量E作为模型输出值,接下来结合该具体过程对本发明的实施步骤进行详细阐述:

1.采集表1中的16个辅助变量变量数据以及其对应的主导变量成分E数据,对于没有对应成分E信息的辅助变量数据也一并采集,进行数据预处理:

对于包含主导变量信息的数据以及不包含主导变量信息的数据剔除过程的野值点和粗糙误差点,并对于变量进行拆分,取前八个变量为第一视图,后八个变量为第二视图,得到新的数据集

2.针对训练数据,根据第一视图和第二视图的数据分别建立偏最小二乘软测量系统模型,然后利用无标签数据来对模型进行更新。

针对数据集建立初始的PLS1模型,并对无标签数据集进行预测,将所得置信度最高的样本的第二视图信息以及其所得预测值信息添加到中去,建立新的PLS2模型;继续利用PLS2模型获取新的置信度最高的样本,并将其第一视图信息添加到中去,继续循环迭代,直到达到终止条件。

3.利用得到的有标签训练集,训练出新的模型,并应用到TE生产过程中来对成分E的信息进行预测,进行生产过程的监测与控制。

利用协同训练的偏最小二乘算法,根据所检测到的辅助变量信息对TE过程的成分E浓度信息进行实时预测,传统偏最小二乘算法与协同训练的偏最小二乘算法的预测结果如图2所示,图3给出了它们预测值与真实值之间的绝对误差。针对预测的结果实现对于生产过程进行调节与控制,维持工况稳定并及时防止故障的发生。

表1:输入变量说明

序号变量序号变量1A进料(流1)9产品分离器温度2D进料(流2)10产品分离器压力3E进料(流3)11产品分离器塔底低流量(流10)4总进料(流4)12汽提器压力5再循环流量(流8)13汽提器温度6反应器进料速度(流6)14汽提器流量7反应器温度15压缩机功率8排放速度(流9)16分离器冷却水出口温度

上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明做出的任何修改和改变,都落入本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号