法律状态公告日
法律状态信息
法律状态
2020-05-08
未缴年费专利权终止 IPC(主分类):G05B13/04 授权公告日:20181016 终止日期:20190522 申请日:20150522
专利权的终止
2018-10-16
授权
授权
2015-10-14
实质审查的生效 IPC(主分类):G05B13/04 申请日:20150522
实质审查的生效
2015-09-16
公开
公开
技术领域
本发明属于工业过程预测与控制领域,尤其涉及一种协同训练算法与偏最小二乘算法的软测量建模方法。
背景技术
在传统工业过程中存在着许多无法或者难以用传感器直接测量的变量如产品反应速率、产品成分含量等等,而这些参数对于提高产品质量和保证安全生产有重要的作用,是工业生产过程中必须加以严格监视和控制的参数。虽然这些变量可以用在线分析仪表进行检测,但是一方面需要大量的投资,另一方面可能因为有较大的测量滞后而使得调节不够及时,从而使得产品质量难以得到保证。这些对于工业生产过程具有重要作用的变量我们称之为主导变量,其他的一些易于测量的变量我们称之为辅助变量。软测量指的是通过建立工业过程变量之间的数学模型,实现利用辅助变量预测主导变量信息的技术方法。近年来,工业过程的软测量得到了越来越多的重视。
传统的工业过程软测量建模方法除了基于机理模型的方法以外,大多数采用多元统计分析和机器学习的方法,例如主元回归PCR和偏最小二乘PLS等,在机理模型难以获取的情况下,基于数据驱动的多元统计分析方法已经成为半导体过程监测的主流方法。但是,传统的多元统计方法在训练样本数目较少的情况下,所建立起的模型的预测精度往往不能够达到有效的精度;此外,传统多元统计学习方法建模时所用的数据往往都是那些辅助变量有对应主导变量信息的数据,没有对应主导变量仅有辅助变量信息的数据往往被直接忽视了。在工业过程中,基于上面所述的主导变量难以检测等原因,工业过程中存在着大量的不包含有主导变量仅有辅助变量信息的数据,这些数据中包含着大量的有用信息,直接弃之不用造成了浪费。
相比之下,半监督学习方法通过使用有标签数据建立初始模型,然后利用无标签数据对模型进行参数优化与调整,最终达到提高模型精度的效果。本发明主要利用了半监督学习中的协同训练算法,结合偏最小二乘模型,找到了一种在辅助变量个数较多的条件下进行模型学习的方法,并成功利用了无标签数据提升了模型的精度,表明了半监督学习方法应用到软测量研究中具有绝对的可能性与相当的有效性,也为今后软测量建模的研究提供了一个新的方法和思路。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于协同训练算法的偏最小二乘回归软测量建模方法。
本发明的目的是通过以下技术方案来实现的:一种基于协同训练算法的偏最小二乘软测量模型的建立,主要包括以下几个步骤:
(1)利用集散控制系统以及离线检测方法,按生产批次收集工业生产过程的数据组成建模用的训练样本集。对于每个批次的训练样本集,一部分为既包含主导变量数据也包含辅助变量信息的样本集D∈RK×J,其中,D为有标签数据集,K为采样数据点个数,J为变量个数;另一部分为只包含辅助变量数据的样本集X∈RN×2M,其中,X为无标签数据集,N为采样数据点数,2M为变量个数,将这些数据存入历史数据库。
(2)对于每个生产批次的有标签数据,沿着时间点方向对每一个数据矩阵进行排列,得到新的数据矩阵,并对其进行预处理和归一化,即使得各个过程变量的均值为零,方差为1,得到新的数据矩阵集为
(3)基于得到的二维数据矩阵
(4)对于有标签数据集,对其自变量集进行均分,前一半自变量作为第一自变量视图:
(5)首先,利用
(6)将建模数据和各个模型参数存入历史数据库和实时数据库中备用。
(7)收集新的过程数据,并对其进行预处理和归一化。
(8)采用基于协同训练算法的偏最小二乘方法对工业过程的变量进行预测,实现过程监控与控制。
本发明的有益效果是:本发明通过对于工业数据建立起的软测量模型,不但利用了传统软测量方法建模所利用的有标签数据,也利用了传统软测量建模方法所不能利用的无标签数据,在训练样本相同的情况下,能够建立起比传统软测量模型精度更高的预测模型。相比目前的其他软测量建模方法,本发明不仅可以大大提高训练样本数目极少的情况下模型的预测效果,而且在很大程度上改善了监测方法对过程知识的依赖性,增强了过程操作员对过程的理解能力和操作信心,更加有利于工业过程的自动化实施。
附图说明
图1是本发明方法和传统偏最小二乘方法对在不同有标签样本比例下建模预测结果的RMSE对比图;
图2是在有标签样本比例为30%的情况下样本真实值、协同训练偏最小二乘算法预测值和偏最小二乘算法的预测值的曲线对比图;
图3是上述两种方法预测结果与真实值之间的误差对比图。
具体实施方式
本发明是针对工业过程中训练数据较少情况下的软测量建模问题,首先利用集散控制系统收集有标签与无标签数据,利用有标签数据建立初始的具有一定差异性的两个模型,然后在初始模型的基础上,通过不断的迭代循环,逐步的将置信度最高的无标签数据转换为有标签数据并加入到训练集中来,逐渐扩大训练集的样本数目,最终达到提高模型精度的效果。本发明不仅提高了工业过程的软测量模型预测效果,增强了过程操作员对过程状态的掌握,使工业生产更加安全,产品质量更加稳定;而且很大程度上改善了软测量建模方法对过程知识的依赖性,更加有利于工业过程的自动化实施。
下面结合附图和具体实施例对本发明进行详细说明。
本发明一种基于协同训练算法的偏最小二乘软测量建模方法,该方法针对工业过程的软测量建模问题,首先利用集散控制系统以及离线检测方法收集包含主导变量信息与辅助变量信息的有标签数据和仅包含辅助变量的无标签数据,然后利用有标签数据建立两个具有相当差异性的初始模型,然后再初始模型的基础上利用无标签数据对两个模型及其训练集进行迭代更新,当达到一定的迭代次数或是终止条件之后,停止对于模型的更新,并利用最终的训练数据建立新的模型,实现对于工业过程的软测量建模。把模型参数存入数据库中备用。
本发明采用的技术方案的主要步骤如下:
第一步,利用集散控制系统以及离线检测方法,按生产批次收集工业生产过程的数据组成建模用的训练样本集,对于一些无法进行在线检测的主导变量,则在离线进行测量后将测量后的变量信息与其对应的辅助变量信息一起存储到数据集中。在这样的条件下,对于同一个批次的训练样本集,一部分为既包含主导变量数据也包含辅助变量信息的样本集D∈RK×J,其中,D为有标签数据集,K为采样数据点个数,J为变量个数;另一部分为只包含辅助变量数据的样本集X∈RN×2M,其中,X为无标签数据集,N为采样数据点数,2M为变量个数,将这些数据存入历史数据库。
第二步,对于每个生产批次的有标签数据,对采集到的过程数据进行预处理,剔除野值点和明显的粗糙误差数据。得到新的数据矩阵集为D∈RK×J。基于得到的二维数据矩阵D∈RK×J。
第三步,按照主导变量和辅助变量分类标准,选取其中的主导变量作为预测目标因变量集
第四步,对于有标签数据集中的每个样本(xi,yi),对其自变量集进行均分,前一半作为第一视图,得到一个新样本:(xatt1,i,yi),后一半作为第二视图,也得到一个新样本:(xatt2,i,yi)。对于整个样本集,也使用同样的分配方法进行分割获取
第五步,不失一般性,先对
假设从两组变量分别提出第一对成分为t1和u1,其中t1是自变量集X的线性组合,u1是因变量集Y的线性组合,为了回归分析的需要,要求t1和u1尽可能多的提取所在变量组的变异信息以及二者之间的相关程度达到最大。现在由E0,F0,计算第一对成分的得分向量,记为
>
>
第一对成分t1和u1的协方差可以用第一对成分的得分向量
>
此时,只需要计算M×M矩阵
>
其中,
>
记>则残差矩阵为>如果残差矩阵F1中元素的绝对值近似为0,则认为用第一个成分建立的回归式精度已经满足要求了,可以停止抽取成分,否则则用残差矩阵E1,F1代替E0,F0重复进行上述步骤即可。
假设最终共提取了r个成分,则有
>
此时,得出Y的预测结果为Y=t1β1+…+trβr,将tk=wk1x1+…+wkMxM(k=1,2…r)代入得到L个因变量的偏最小二乘回归方程式:
yj=bj1x1+…+bjmxm,(j=1,2…L)
记回归系数矩阵为>此时,记此模型在原有的训练集上的均方误差为RMSEorig。
对于无标签数据集,对于每个样本点SULa,att1:xatt1,i,(i=1,2…N),利用Mx,Sx对其进行标准化,即>由>得到一组新的数据集
利用新的PLS2模型对剩下的无标签数据继续添加标签,并将所得的置信度最高的新加标签样本添加到PLS1的训练集中去,再训练出新的PLS1模型选取置信度最高的样本添加到PLS2的训练集中去,如此迭代循环;
当达到循环停止条件后,亦即达到一定的循环次数或无法找到新的满足条件的无标签样本,此时可以获取两组新的有标签数据集,利用这两组有标签数据训练得到最终的PLS1和PLS2,将这两个模型的预测结果进行加权,得到最终的预测结果。
第六步:将建模数据和各个模型参数存入历史数据库和实时数据库中备用。
第七步:收集新的过程数据,并对其进行预处理和归一化。
对于过程中新收集到的数据样本,除了对其进行预处理之外,还有采用建模时的模型参数对该数据点进行归一化,即减去建模均值和除以建模标准差。
第八步:采用基于协同训练算法的偏最小二乘方法对工业过程的变量进行预测,并根据预测结果实行对于工业过程的监控与控制。
以下结合一个具体的工业过程的例子来说明本发明的有效性。该过程的数据来自美国TE(Tennessee Eastman——田纳西-伊斯曼)化工过程实验,原型是Eastman化学公司的一个实际工艺流程。目前,TE过程己经作为典型的化工过程故障检测与诊断对象被广泛研究。整个TE过程包括41个测量变量和12个操作变量(控制变量),其中41个测量变量包括22个连续测量变量和19个成分测量值,其中,22个连续测量变量每3分钟被采样一次,而19个成分变量的采样间隔分6分钟与15分钟两种,所有的过程测量值都包含有高斯噪声。为了实现对于成分变量的预测,我们选取了表1中的16个变量作为输入变量,选取流9中的成分变量E作为模型输出值,接下来结合该具体过程对本发明的实施步骤进行详细阐述:
1.采集表1中的16个辅助变量变量数据以及其对应的主导变量成分E数据,对于没有对应成分E信息的辅助变量数据也一并采集,进行数据预处理:
对于包含主导变量信息的数据
2.针对训练数据,根据第一视图和第二视图的数据分别建立偏最小二乘软测量系统模型,然后利用无标签数据来对模型进行更新。
针对数据集
3.利用得到的有标签训练集,训练出新的模型,并应用到TE生产过程中来对成分E的信息进行预测,进行生产过程的监测与控制。
利用协同训练的偏最小二乘算法,根据所检测到的辅助变量信息对TE过程的成分E浓度信息进行实时预测,传统偏最小二乘算法与协同训练的偏最小二乘算法的预测结果如图2所示,图3给出了它们预测值与真实值之间的绝对误差。针对预测的结果实现对于生产过程进行调节与控制,维持工况稳定并及时防止故障的发生。
表1:输入变量说明
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明做出的任何修改和改变,都落入本发明的保护范围。
机译: 基于偏最小二乘方法和模型的绕线,扭曲预测与控制
机译: XML架构和对象的原生计算的高效工业自动化流程和基于BPMN的业务流程建模的方法,装置,系统模型
机译: 过程异常检测/分类的建模设备和模型分析方法,系统和方法,建模系统和建模方法以及更新建模设备的故障预测系统和方法