公开/公告号CN117216723A
专利类型发明专利
公开/公告日2023-12-12
原文格式PDF
申请/专利权人 广东石油化工学院;
申请/专利号CN202311035357.9
发明设计人
申请日2023-08-16
分类号G06F18/27;G06F18/23;G06F18/214;G06N20/00;
代理机构广州智丰知识产权代理事务所(普通合伙);
代理人凌衍芬
地址 525099 广东省茂名市茂南区官渡二路139号大院
入库时间 2024-04-18 19:58:30
技术领域
本发明涉及乙烯裂解分析领域,更具体地,涉及一种基于贝叶斯t分布混合回归模型的结焦诊断方法。
背景技术
乙烯裂解炉是蒸汽裂解生产的关键设备,裂解炉生产能力及技术的高低,直接决定了整套乙烯装置的生产规模、产量和产品品质。由于烃类裂解原料的特殊性,在高温下发生裂解反应时不可避免会形成焦炭颗粒附着在炉管内壁,称之为炉管结焦。炉管结焦对乙烯生产危害很大,轻则会降低能效和减少乙烯生产经济效益,严重时甚至会诱发灾难性事故。所以,实现工业生产过程中裂解炉炉管结焦程度的精准预测具有重要意义。
目前,对于乙烯裂解炉结焦诊断的方法主要包括两大类:基于结焦机理模型的结焦诊断软测量和基于数据驱动的结焦诊断软测量。基于机理模型的结焦诊断起步较早,但存在因部分重要机理模型的参数难以准确获取,而导致模型的结焦推断准确性不高。基于数据驱动的结焦诊断软测量解决了这一难题,将可获取的裂解工艺参数作为人工智能算法的输入变量,通过特征抽取和模型化得到与结焦厚度的关系。在其中运用最为广泛的是人工神经网络支持向量机完成对工况的识别,建立了炉管出口温度随机分布系统模型,为乙烯裂解炉烧焦过程COT进行随机分布先进控制奠定基础。在进行裂解炉数据的建模时,由于裂解炉具有多模态、非线性、非高斯性的特点,基于混合模型的建模方法可以很好地解决这一问题,其中的高斯混合模型(GMM)得到了广泛运用,在高斯混合模型(GMM)的基础上,高斯混合回归模型(GMR)可以完成对输出变量的预测。在实际问题中,运行数据会受到噪声的影响,而高斯分布由于尾巴较短,鲁棒性较差,导致模型的准确性变差。而t分布混合模型由于其t分布具有较宽的尾部,使得模型能够较好地免疫离群点。
发明内容
本发明旨在克服上述现有技术的至少一种缺陷,提供一种基于贝叶斯t分布混合回归模型的结焦诊断方法,用于提供一种具有更高精度和鲁棒性的模型来对乙烯裂解炉的炉管进行诊断。
本发明采取的技术方案是:
一种基于贝叶斯t分布混合回归模型的结焦诊断方法,所述方法包括:
选择与炉管结焦相关的数据为辅助变量,炉管结焦情况为主导变量;
基于选择的辅助变量和主导变量收集炉管的历史数据构建样本集;
对样本集的数据进行预处理;
构建贝叶斯t分布混合回归模型;
将预处理后的样本集输入到贝叶斯t分布混合回归模型中,根据样本集训练模型并更新变分后验分布和自由参数,获得训练好的模型;
将需要进行预测的炉管结焦相关数据进行预处理后,输入到训练好的模型中,得到预测输出结果;
根据预测输出结果计算炉管的结焦状态。
通过采用混合回归模型能够很好的匹配裂解炉的多模态、非线性和非高斯性的特点;同时结合t分布的方式构建模型,能够很好的保证在噪声的影响下模型具有较高的准确性;进一步采用变分贝叶斯的方法,来对模型的参数进行估计,结合模型学习,使模型能够更好的对裂解炉的结焦情况进行预测。
进一步的,所述对样本集的数据进行预处理包括对样本集中的辅助变量进行预处理,具体步骤如下:
基于样本集的辅助变量
其中
u
通过引入离散二值指示变量,能够更好地处理复杂样本集和数据集,捕捉样本集和数据集中的潜在结构,实现数据聚类和分布的建模,并提供更灵活和适应性的模型,提高了混合模型在聚类、异常检测等任务重得到更广泛的应用;同时,通过引入鲁棒变量,使混合模型可以在更复杂的数据集中表现的更稳定,能够更好的适应存在异常值的情况,并简化贝叶斯t分布混合回归模型参数的求解。
进一步的,所述构建贝叶斯t分布混合回归模型包括:
将所述贝叶斯t分布混合回归模型参数贝叶斯化,基于贝叶斯化后的所述贝叶斯t分布混合回归模型参数构建模型变量Θ,所述模型变量Θ包括潜在变量Θ
其中潜在变量Θ
参数变量Θ
进一步的,所述构建贝叶斯t分布混合回归模型还包括:
根据所述模型变量Θ,计算其后验q(Θ)的对数似然,表示为:
式中KL[q(Θ)||p(Θ|X,Y)]为信息论中的相对熵且满足KL[q(Θ)||p(Θ|X,Y)]≥0,称为KL散度,表示真实的后验分布p(Θ|X,Y)与近似后验q(Θ)之间的距离;X为辅助变量,Y为主导变量,p(·)和q(·)分别表示概率计算和后验分布计算;当且仅当p(Θ|X,Y)=q(Θ)时,KL[q(Θ)||p(Θ|X,Y)]=0;所以有
进一步的,所述构建贝叶斯t分布混合回归模型还包括:
利用指数分布的共轭先验特性,为参数变量Θ
p(δ)表示混合系数δ的共轭先验分布,
p(Λ)表示混合的成员分量的精度
p(μ)表示混合的成员分量的均值
自由度参数v的共轭先验分布通过最大化下界计算得到;
在输出空间内,当每个混合t分布组分下的辅助变量X与主导变量Y之间服从线性关系时,即:
根据该公式得到:
其中,
进而计算得到每个混合的成员分量下主导变量y
其中,
与/>
其中,a
所述模型变量之间的联合分布层次表示为:
通过分别建模均值和精度矩阵的先验分布,可以更加灵活地对每个参数进行建模。这样能够针对不同参数的先验知识和数据特点,分别选择合适的先验分布,从而更好地捕捉参数的不确定性和数据的分布。同时,可以降低模型的计算的复杂度,在输入变量为高维时,极大地简化模型的求解。
进一步的,所述将预处理后的样本集输入到贝叶斯t分布混合回归模型中,根据样本集训练模型并更新变分后验分布和自由参数,获得训练好的模型,具体步骤包括:
S51:输入预处理后的主导变量Y和辅助变量X,设定所述贝叶斯t分布混合回归模型的超参数以及预定结束阈值ξ;
S52:初始化输入的主导变量Y、辅助变量X和所述贝叶斯t分布混合回归模型参数的变分后验分布;
S53:设置迭代学习次数K,进行迭代学习;
S54:计算所述指示变量Z和鲁棒变量U的期望;
S55:根据步骤S54计算的指示变量Z和鲁棒变量U的期望,计算更新所述模型变量Θ={Θ
S56:判断是否满足预设的预定结束阈值,当满足预定结束阈值则结束学习,否则重复执行步骤S54-S56直到K次迭代学习执行完毕。
进一步的,所述计算更新所述模型变量Θ={Θ
遍历计算更新模型变量中各元素对应的每一个混合的成员分量的变分后验:q(Z)、q(U)、q(δ)、q(μ)、q(Λ)、q(ω)、q(ω)和q(σ),以及自由度参数v
其中自由度参数v
自由度参数v
计算的到:
将各个变分后验分布因子化,得到:
q(Θ)=q(Z,U,δ,μ,Λ,ω,λ,σ)=q(Z)q(U)q(δ)q(μ)q(Λ)q(ω)q(λ)q(σ)。
利用斯特林公式,避免了对常规的非线性方程的求解,极大的简化了自由度参数的计算,大大的提高了模型训练的效率。
进一步的,在第k次迭代中,更新的准则符合VBEM算法,具体如下:
VB-E步:
VB-M步:
式中,<·>表示关于变量的变分后验的期望,k表示当前迭代次数,<·>
进一步的,所述判断是否满足预设的预定结束阈值,当满足预定结束阈值则结束学习,具体包括:
计算当前迭代的最大化证据下界
则结束迭代学习,式中,ξ为所述预定结束阈值。
设置预定结束阈值,并且基于最大化证据下界来设置判断条件,当满足预定结束阈值的判断条件时,判断此时模型已经收敛,提前结束训练,大大的提高了模型训练的效率。
进一步的,所述根据预测输出结果计算炉管的结焦状态,包括:
通过训练好的所述贝叶斯t分布混合回归模型得到预测结果
将所述预测结果
式中,j
上式表示,将所述预测结果
为了能够更清晰的通过预测输出结果表达炉管的结焦情况,通过对预测结果进行进一步的计算处理,得到结焦程度的等级数值,更好的直观的反映了炉管结焦的情况。
与现有技术相比,本发明的有益效果为:
1.本发明通过构建贝叶斯t分布混合回归模型,能够很好的匹配裂解炉的多模态、非线性和非高斯性的特点,其基于t分布构建的模型,能够很好的保证模型在噪声的影响下依然具有较高的准确性;同时在建模时采用了变分贝叶斯方法,将模型的参数贝叶斯化,来对模型的参数进行估计,具体通过分别建模参数中的均值和精度的先验分布,能够更加灵活的对每个参数进行建模,这样针对不同参数能够选择合适的先验分布,更好的捕捉参数的不确定性和数据的分布,同时降低了模型计算的复杂度,简化模型的求解,大大的提高了模型的学习效率。
2.本发明通过引入离散二值指示变量,能够更好地处理复杂样本集,捕捉样本集中的潜在结构,实现数据聚类和分布的建模,并提供更灵活和适应性的模型,提高了混合模型在聚类、异常检测等任务重得到更广泛的应用;同时,通过引入鲁棒变量,使混合模型可以在更复杂的数据集中表现的更稳定,能够更好的适应存在异常值的情况,并简化贝叶斯t分布混合回归模型参数的求解。
3.本发明利用斯特林公式来求解自由度参数,避免了对常规的非线性方程的求解,极大的简化了自由度参数的计算,大大的提高了模型训练的效率。
4.本发明通过设置预定结束阈值,并且基于最大化证据下界来设置判断条件,当满足预定结束阈值的判断条件时,判断此时模型已经收敛,提前结束训练,大大的提高了模型训练的效率。
附图说明
图1为本发明的结焦诊断方法的步骤流程图。
图2为本发明的贝叶斯t分布混合回归模型的训练步骤流程图。
图3为t分布的概率密度函数随自由度v变化的曲线。
图4为实施例2的PLSR模型、GPR模型、GMR模型和STMR模型对工业数据的预测结果图。
具体实施方式
本发明附图仅用于示例性说明,不能理解为对本发明的限制。为了更好说明以下实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
实施例1
为了能够更好的解释说明,先对本实施例中所涵盖的技术知识进行简单说明,首先,t分布的概率密度函数为:
式中:μ为均值,Λ为精度,v为自由度参数,h为数据维度,Γ(·)表示伽马函数,(·)
因为直接对t分布进行最大似然估计很难得到解析解,通常将t分布看做多个相同均值的高斯分布的无限混合,即:
式中u为鲁棒变量,
基于上述内容,本实施例提供一种基于贝叶斯t分布混合回归模型的结焦诊断方法
如图1所示,所述方法包括:
S1:选择与炉管结焦相关的数据为辅助变量,炉管结焦情况为主导变量;
在该步骤中,采集的炉管结焦相关的数据可以包括:和/或炉管的出口温度,和/或炉管的入口温度,和/或炉管外表面温度,和/或绝压比,和/或横跨段压力,和/或文丘里压力;还可以包括其他相关数据,具体可由专家评判获得;在一个优选的实施方式中,选择上述全部数据来作为辅助变量;
具体的,辅助变量表示为
所述贝叶斯t分布混合回归模型的形式包括:
在输出空间中,所述辅助变量X为M个t分布混合而成,其x
式中,M为用于混合的成员分量的数量,
S2:基于选择的辅助变量和主导变量收集炉管的历史数据构建样本集;
样本集中包括有用于贝叶斯t分布混合回归模型进行训练的训练集和用于对贝叶斯t分布混合回归模型进行测试的测试集;
S3:对样本集的数据进行预处理;
对样本集的预处理包括对辅助变量X和主导变量Y进行规范化处理,其中为了能够方便之后的变分处理,辅助变量X的预处理还包括:对辅助变量X中的x
其中
特别需要注意的是,每个样本只能对应形成一个成员分量参与混合,在上述中的给定的每个成员分量的混合系数π则用于表征每个t分布的成员分量在混合模型中所占的权重,因此,指示变量Z和鲁棒变量U的条件概率函数可以表示为:
式中,
S4:构建贝叶斯t分布混合回归模型;
具体的,构建贝叶斯t分布混合回归模型包括两个方面:
一方面要先对模型的参数进行设置,在本实施例中,将贝叶斯t分布混合回归模型参数贝叶斯化,基于贝叶斯化后的贝叶斯t分布混合回归模型参数构建模型变量Θ,所述模型变量Θ包括潜在变量Θ
其中潜在变量Θ
参数变量Θ
另一方面,为贝叶斯t分布混合回归模型参数选择共轭先验分布,在本实施例中,利用指数分布的共轭先验特性来为上述参数变量Θ
p(·)表示对应的概率计算,则:
p(δ)表示混合系数
p(Λ)表示混合的成员分量的精度
其表示混合的成员分量的均值
自由度参数
在输出空间内,当每个混合t分布组分下的辅助变量X与主导变量Y之间服从线性关系时,即:
根据该公式得到:
其中,
进而计算得到每个混合的成员分量下主导变量y
其中,
由于
其中,a
所述模型变量之间的联合分布层次表示为:
S5:将预处理后的样本集输入到贝叶斯t分布混合回归模型中,根据样本集训练模型并更新变分后验分布和自由参数,获得训练好的模型;
具体的,该步骤还具体包括如下步骤:
S51:输入预处理后的主导变量Y和辅助变量X,设定所述贝叶斯t分布混合回归模型的超参数以及预定结束阈值ξ;
S52:初始化输入的主导变量Y、辅助变量X和所述贝叶斯t分布混合回归模型参数的变分后验分布;
S53:设置迭代学习次数K,进行迭代学习;
S54:计算所述指示变量Z和鲁棒变量U的期望;
更具体的,在该步骤中,期望的计算具体包括:
遍历计算指示变量Z和鲁棒变量U中的每一个元素,具体遍历到指示变量Z中的每一个元素z
指示变量Z中每一个元素z
其中
式中,
鲁棒变量U中的每一个元素u
其中,
进而得到 其中ψ(·)是digamma函数。 S55:根据步骤S54计算的指示变量Z和鲁棒变量U的期望,计算更新所述模型变量Θ={Θ 更具体的,在该步骤中,计算每一个混合的成员分量的变分后验具体包括: 遍历计算更新模型变量中各元素对应的每一个混合的成员分量的变分后验:q(Z)、q(U)、q(δ)、q(μ)、q(Λ)、q(ω)、q(ω)和q(σ); 对应的具体形式如下: 首先考虑近似后验q(Θ),对数似然可表示为: 式中KL[q(Θ)||p(Θ|X,Y)]为信息论中的相对熵且满足KL[q(Θ)||p(Θ|X,Y)]≥0,称为KL散度,表示真实的后验分布p(Θ|X,Y)与近似后验q(Θ)之间的距离,p(·)和q(·)分别表示概率计算和后验分布计算。当且仅当p(Θ|X,Y)=q(Θ)时,KL[q(Θ)||p(Θ|X,Y)]=0。所以有 其中各个变量的变分后验计算公式如下: 指示变量Z的后验分布 式中,exp表示指数函数,∝表示正比关系; 鲁棒系数U的后验分布 式中, 混合系数π的后验分布 计算得到: 式中,<·>为数学期望的计算公式,ψ(·)是digamma函数; 均值μ m 计算得到: <μ 精度Λ r 计算得到: <Λ 回归系数ω 其中: 式中,I表示单位矩阵; 计算得到: <ω λ a 计算得到: σ c 计算得到: 通过上述的公式计算可以得出,模型变量Θ中的各个变量之间互相独立,则可以将变分后验分布因子化,即: q(Θ)=q(Z,U,δ,μ,Λ,ω,λ,σ)=q(Z)q(U)q(δ)q(μ)q(Λ)q(ω)q(λ)q(σ)。 在本步骤中,还包括计算更新器自由度参数v 自由度参数v 通过计算得到: 采用斯特林公式来计算自由度参数v 在每次迭代学习中,基于上述公式来对所述贝叶斯t分布混合回归模型参数的变分后验和自由度参数进行更新,同时,在第k次迭代中,其更新的准则符合VBEM算法,具体的更新准则如下: VB-E步: VB-M步: 式中,<·>表示关于变量的变分后验的期望,k表示当前迭代次数,<·> S56:判断是否满足预设的预定结束阈值,当满足预定结束阈值则结束学习,否则重复执行步骤S54-S56直到K次迭代学习执行完毕。 更具体的,在本步骤中,通过在步骤S55中更新的参数来计算当前迭代的最大化证据下界 即,当满足该判断公式时,可以认定模型已经收敛,则结束迭代学习,减少多余的迭代学习次数,提高迭代学习的效率。 其中最大化证据下界 其中: /> /> S5:将需要进行预测的炉管结焦相关数据进行预处理后,输入到训练好的模型中,得到预测输出结果; 该步骤具体包括: 将需要进行预测的炉管结焦相关的数据x 计算预处理后的所述x 式中,M为用于混合的成员分量的数量,z 计算需要进行预测的炉管结焦情况y 式中, 最终根据如下公式计算得到所述x 式中, S7:根据预测输出结果计算炉管的结焦状态。 在该步骤中,具体包括: 将所述预测结果 式中,j 上式表示为,遍历各个结焦等级数值j 实施例2 本实施例使用实施例1提供的一种基于贝叶斯t分布混合回归模型的结焦诊断方法,与其他模型进行对比实验;本实施例的实验数据有工业乙烯裂解装置实际随机采集得到,筛选出炉管的出口温度、炉管的入口温度、炉管外表面温度、绝压比、横跨段压力和文丘里压力作为辅助变量,同时设置划分炉管的结焦程度为正常、轻度结焦、中度结焦和严重结焦四个等级。 本实施例采集样本5000个,其中训练集的样本个数为2000,预测集的个数为3000。采用均方根误差RMSE为指标,计算基于实施例1的方法构建的STMR模型与其他模型的预测精度。 如图4所示,图中给出了PLSR模型、GPR模型、GMR模型和STMR模型对工业数据的预测结果图,可以从图中得到PLSR模型的预测效果最差,而STMR模型的预测效果最好。同时如下表1所示,STMR模型与其他三个模型相比,RMSE值最小,模型性能最佳。STMR模型较PLSR模型、GPR模型和GMR模型的误差分布降低了90.6%、67.5%和62.8%。分析其主要原因是STMR模型在处理含有噪声的实验数据时,模型受到的影响更小,具有较好的鲁棒性能。 表1模型预测结果 显然,本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例,而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
机译: 混合模型的贝叶斯推断方法和记录介质的混合贝叶斯推断程序
机译: 基于患者数据的贝叶斯因果关系网络模型在医疗诊断和治疗中的应用
机译: 基于患者数据的医疗诊断和治疗的贝叶斯因果关系网络模型