首页> 中国专利> 偏差度惩罚的增强型堆叠自动编码器处理方法及装置

偏差度惩罚的增强型堆叠自动编码器处理方法及装置

摘要

本申请公开了偏差度惩罚的增强型堆叠自动编码器处理方法和装置,该方法包括:获取一神经元与其他神经元之间的分散度,其中,分散度用于指示该神经元到同一层的其他神经元的距离,神经元为堆叠自编码器中的神经元;对每一层均配置该层对应的第一惩罚系数,其中,第一惩罚系数用于调整各层之间的分散度;对重构误差配置第二惩罚系数,其中,第二惩罚系数用于调整重构精度;将第一惩罚系数和第二惩罚系数配置在堆叠自编码器中。通过本申请解决了现有的堆叠自动编码器检测故障所存在的问题,从而使检测性能朝更高的水平优化。

著录项

  • 公开/公告号CN113191439A

    专利类型发明专利

  • 公开/公告日2021-07-30

    原文格式PDF

  • 申请/专利权人 中南大学;

    申请/专利号CN202110503835.9

  • 发明设计人 王凯;曹子卉;王雅琳;袁小锋;

    申请日2021-05-10

  • 分类号G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构43244 长沙智路知识产权代理事务所(普通合伙);

  • 代理人张毅

  • 地址 410083 湖南省长沙市岳麓区麓山南路932号

  • 入库时间 2023-06-19 12:02:28

说明书

技术领域

本申请涉及到工业过程中数据分析领域,具体而言,涉及偏差度惩罚的增强型堆叠自动编码器处理方法及装置。

背景技术

当出现大规模波动或过程规定时,非线性在工业过程中占主导地位。基于常规多元统计分析(MVA)的故障检测策略,例如主成分分析(PCA)和规范变量分析(CVA),为建模和设计检测指标提供了系统的统计解释。但是,它们无法处理非线性。因此,开发了基于内核技巧的MVA非线性扩展,例如内核PCA和内核CVA。这些核方法的一个自然缺陷是检测结果对核函数和相应的超参数相当敏感。作为非参数技术应用于过程监控的核方法必须在测试未知数据时保留所有训练数据,并且核矩阵的大小完全取决于样本的规模。因此,面对大量数据而没有任何妥协,核方法的性能会下降。

随着数据规模的增长和非线性的增强,核方法中的浅层非线性映射已经不能很好地从噪声数据中恢复模型。通过多层非线性映射的深层模型可以表示更强的非线性。特别是,一旦网络训练完成,在监视阶段使用新样本进行正向传播就非常快,这与需要重新使用所有训练数据的内核方法不同。这意味着使用深层模型可以提高模型表示和检测效率。

但是,良好的故障检测性能不仅与足够有效的模型有关,而且设计检测指标的技术也起着重要的作用。与MVA方法具有某些预定义分布的统计控制限制不同,通过一系列非线性映射的深层模型在神经元和重建误差中具有复杂的分布。因此,采用了非参数密度估计,例如核密度估计(KDE)。因此,导出的控制极限将在很大程度上取决于训练超参数,例如启动和迭代。它不够稳定,无法检测具有不同训练配置的未知样本。另一方面,神经元中挤压的激活以适应非线性通常是渐近边界。例如,标准S型函数的范围是(0,1)。因此,与线性情况下的无限检测余量相比,检测余量相当有限。当处于训练阶段的神经元占据整个范围空间时,该模型甚至对一些非常小的故障变得不敏感。

发明内容

本申请实施例提供了偏差度惩罚的增强型堆叠自动编码器处理方法及装置,以至少解决现有的堆叠自动编码器检测故障所存在的问题。

根据本申请的一个方面,提供了一种偏差度惩罚的增强型堆叠自动编码器处理方法,包括:获取一神经元与其他神经元之间的分散度,其中,所述分散度用于指示该神经元到同一层的其他神经元的距离,所述神经元为堆叠自编码器中的神经元;对每一层均配置该层对应的第一惩罚系数,其中,所述第一惩罚系数用于调整各层之间的分散度;对重构误差配置第二惩罚系数,其中,所述第二惩罚系数用于调整重构精度;将所述第一惩罚系数和所述第二惩罚系数配置在所述堆叠自编码器中。

进一步地,将所述第一惩罚系数和所述第二惩罚系数配置在所述堆叠自编码器中之后,所述方法还包括:将工业过程中采集到的数据集输入到配置后的所述堆叠自编码器中,以识别所述工业过程中是否存在故障。

进一步地,所述分散度是根据该神经元到同一层的其他神经元的的欧氏距离平方的平均值得到的。

进一步地,所述第一惩罚系数用于调整正则化后的分散度;和/或,所述第二惩罚系数用于调整正则化后的重构精度。

进一步地,将所述第一惩罚系数和所述第二惩罚系数配置在所述堆叠自编码器模型中之后,所述方法还包括:将所述工业过程中采集到的数据输入包括带惩罚系数的堆叠自编码器在内的多个自编码器中,进行故障检测效果比较;其中,带惩罚系数的堆叠自编码器为配置有所述第一惩罚系数和第二惩罚惩罚系数的所述堆叠自编码器。

进一步地,所述多个自编码器包括:所述带惩罚系数的堆叠自编码器、未带有惩罚系数的堆叠自编码器以及变分自编码器中。

进一步地,进行故障检测效果比较包括:获取所述多个自编码器对应的误报率和故障检测率;根据所述误报率和所述故障检测率进行故障检测效果的比较。

进一步地,所述多个自编码器采用了相同的神经网络参数配置。

根据本申请的另一个方面,还提供了一种偏差度惩罚的增强型堆叠自动编码器处理装置,其特征在于,所述装置包括处理器和/或存储器,其中,所述处理器用于执行软件,所述存储器用于存储所述软件,所述软件用于执行上述的方法。

根据本申请的另一个方面,还提供了一种偏差度惩罚的增强型堆叠自动编码器处理装置,包括:获取模块,用于获取一神经元与其他神经元之间的分散度,其中,所述分散度用于指示该神经元到同一层的其他神经元的距离,所述神经元为堆叠自编码器中的神经元;第一配置模块,用于对每一层均配置该层对应的第一惩罚系数,其中,所述第一惩罚系数用于调整各层之间的分散度;第二配置模块,用于对重构误差配置第二惩罚系数,其中,所述第二惩罚系数用于调整重构精度;第三配置模块,用于将所述第一惩罚系数和所述第二惩罚系数配置在所述堆叠自编码器中。

在本申请实施例中,采用了获取一神经元与其他神经元之间的分散度,其中,所述分散度用于指示该神经元到同一层的其他神经元的距离,所述神经元为堆叠自编码器中的神经元;对每一层均配置该层对应的第一惩罚系数,其中,所述第一惩罚系数用于调整各层之间的分散度;对重构误差配置第二惩罚系数,其中,所述第二惩罚系数用于调整重构精度;将所述第一惩罚系数和所述第二惩罚系数配置在所述堆叠自编码器中。通过本申请解决了现有的堆叠自动编码器检测故障所存在的问题,从而使检测性能朝更高的水平优化。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例的三相流设施的示意图;

图2为根据本申请实施例的工业过程中使用堆叠自动编码器进行偏差度惩罚的增强型故障检测方法的示意图;

图3是根据本申请实施例的偏差度惩罚的增强型堆叠自动编码器处理方法的流程图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

在以下实施例中涉及到如下概念:

误报率(FAR)和故障检测率(FDR)是评估检测性能的两个常用标准。FAR表示错误警报与整个正常数据的比率,而FDR表示真实警报与整个故障数据的比率。

堆叠自编码器(Stacked Auto Encoder,简称为SAE)模型是一个由多层稀疏自编码器组成的深度神经网络模型,其前一层自编码器隐层的输出作为其后一层自编码器的输入,最后一层是个分类器(logistic回归或者softmax分类(预测分析))。除此之外,自编码器还有变分自编码器(Variational Auto-Encoder,简称为VAE)。

在本实施例中提供了一种偏差度惩罚的增强型堆叠自动编码器处理方法,图3是根据本申请实施例的偏差度惩罚的增强型堆叠自动编码器处理方法的流程图,如图3所示,该流程包括如下步骤:

步骤S302,获取一神经元与其他神经元之间的分散度,其中,所述分散度用于指示该神经元到同一层的其他神经元的距离,所述神经元为堆叠自编码器中的神经元;

步骤S304,对每一层均配置该层对应的第一惩罚系数,其中,所述第一惩罚系数用于调整各层之间的分散度;

在该步骤中,分散度的获取有很多方式,作为一个可选的方式,所述分散度是可以根据该神经元到同一层的其他神经元的的欧氏距离平方的平均值得到的。

步骤S306,对重构误差配置第二惩罚系数,其中,所述第二惩罚系数用于调整重构精度;

在步骤S304和步骤S306中,可以采用正则化处理,例如,所述第一惩罚系数用于调整正则化后的分散度;和/或,所述第二惩罚系数用于调整正则化后的重构精度。正则化的处理对于提高精度是有帮助的。

步骤S308,将所述第一惩罚系数和所述第二惩罚系数配置在所述堆叠自编码器中。

通过上述步骤,在现有的堆叠自动编码器中引入了惩罚系数,从而解决了现有的堆叠自动编码器检测故障所存在的问题,从而使检测性能朝更高的水平优化。

在上述步骤中,将所述第一惩罚系数和所述第二惩罚系数配置在所述堆叠自编码器中之后,得到的模型可以用来检测故障,例如,将工业过程中采集到的数据集输入到配置后的所述堆叠自编码器中,以识别所述工业过程中是否存在故障。

在进行故障检测的时候,还可以比较检测效果。例如,可以将所述工业过程中采集到的数据输入包括带惩罚系数的堆叠自编码器在内的多个自编码器(例如,所述带惩罚系数的堆叠自编码器、未带有惩罚系数的堆叠自编码器以及变分自编码器中;为了提高比较效果所述多个自编码器采用了相同的神经网络参数配置)中,进行故障检测效果比较;其中,带惩罚系数的堆叠自编码器为配置有所述第一惩罚系数和第二惩罚惩罚系数的所述堆叠自编码器。

比较检测效果的方式有多种,例如,可以获取所述多个自编码器对应的误报率和故障检测率;根据所述误报率和所述故障检测率进行故障检测效果的比较。

下面结合一个优选实施例对检测效果的比较以及引入惩罚系数进行说明。

在本实施例中提出了一种新的样本偏差度惩罚策略,称为pSAE。通过该样本彼此之间的平均欧几里德距离来测量各个样本的偏离度。对于这些较大的偏离度,惩罚机制将更多地抑制相应的神经元和重建误差,以防止出现离群值的趋势。此属性避免一些尖锐的值提高控制极限。同时,对偏差程度进行惩罚可防止神经元到达挤压功能的边界,从而为异常检测留出更多余量。

本实施例中提出的一种新的样本偏差度惩罚策略,可以通过如下步骤在工业过程中使用:

步骤1、数据准备与预处理。

在该步骤中,选取工业过程中测量到的过程变量进行故障检测实验,测量的过程变量可包括正常数据集和多种不同故障场景。在一个可选的实施方式中,考虑到有限的计算源,对原始数据集进行下采样可以获得三个子集来减少样本大小,这三个子集包括:训练集、用于确定超参数的验证集、用于评估FAR的测试集。在一个实施方式中,在进行任何下采样操作之前,所有原始采样周期均为1s。在训练网络之前,可以通过使用训练集的最小值和最大值的minmax缩放来缩放正常数据和故障数据。

步骤2、训练三种编码器的网络结构参数。

SAE网络结构参数的配置是可以通过反复试错方法确定的,即通过观察验证集中的丢失趋势,以不同的配置多次运行网络。具有惩罚项的SAE与常规SAE具有相同的超参数设置,但还需要对惩罚系数进行设置。为了进行公平的比较,VAE采用了与SAE和pSAE相同的网络配置。

在该步骤中,pSAE可以通过如下步骤来实现:

步骤2.1定义分散度以测量神经元与其他神经元之间的距离:

对于神经元

步骤2.2通过在每层中惩罚

步骤2.3在某些样本中,重构误差还遭受高分散度问题。重构误差的相似正则化策略可以包括以下内容:

出于最大化故障检测性能的目的,使用β和γ来平衡重构精度和惩罚项。验证集可用于选择β和γ,使得重建精度略有下降,但离群值得到了明显抑制。

步骤3、对不同方法的FAR和FDR进行评估:针对步骤2所述的三种编码器进行FAR和FDR的评估,包括以下步骤:

步骤3.1、对于SAE,h

其中,S

步骤3.2、给定置信水平α,控制极限h

误报率(FAR)和故障检测率(FDR)是评估检测性能的两个常用标准。FAR表示错误警报与整个正常数据的比率,而FDR表示真实警报与整个故障数据的比率。

下面结合例子来对本实施例进行说明。图1是根据本申请实施例的三相流设施的示意图,如图1所示,该设施为克兰菲尔德大学的三相流设施,该设备进行了材料回收,并针对两相或三相分离进行了实验。并且,该三相流设备的开放式正常数据集和故障数据集是具有真实工具的真实实验数据。在该实验中,使用两相分离数据,即分离气体/空气和液体/水和油的混合物。空气被泵入R300进行预处理。水和油分别存储在水箱T100和T200中。有相应的压缩机PO1和PO2对其进行泵送。混合后,流体可以以不同的两条流线流动,但最终会聚到顶部的两相分离器中。分离后,气体和液体分别流入GS500,然后将空气排放到大气中。液体进一步分为油和水,然后返回到相应的储罐中。

对该三相分离过程,图2为根据本申请实施例的工业过程中使用堆叠自动编码器进行偏差度惩罚的增强型故障检测方法的示意图,如图2所示,包括以下步骤:

步骤S1、数据准备与预处理:已安装的传感器测量了24个过程变量。选取其中的10个进行故障检测实验。实验中有三个正常数据集T1,T2和T3,以及六种不同的故障场景。与Ref相同,选择T2和T3的串联来训练模型,因为与T1相比,它们具有最低的误报率。考虑到有限的计算源,通过对原始数据集进行20次下采样,获得三个子集(包含训练集,用于确定超参数的验证集和用于评估FAR的测试集)来减少样本大小。由于六种故障中的前四种故障场景包含三种不同的故障模式,分别具有不同的水流率和空气流率设置,因此它们可用于从不同角度评估FDR。在进行任何下采样操作之前,所有原始采样周期均为1s。因此,以下内容将无疑问地忽略采样时间段的陈述。所有故障类型均为初期故障。有四种故障情况,每种情况包含三种不同的操作条件和故障样本。在训练网络之前,通过使用训练集的最小值和最大值的minmax缩放来缩放正常数据和故障数据。

步骤S2、训练三种编码器的网络结构参数:对于SAE,网络配置是通过反复试验确定的,即通过观察验证集中的丢失趋势,以不同的配置多次运行网络。在此示例中,SAE包含三个隐藏层,并且神经元的数量分别为10、8和6。微调步骤中的迭代次数为800。优化程序为Adam,学习率为0.008。此外,具有惩罚项的SAE与常规SAE具有相同的超参数设置,惩罚系数被设置为β=γ=0.001。为了进行公平的比较,VAE还采用了与SAE和pSAE相同的网络配置。

步骤S3、对不同方案的FAR和FDR进行评估:针对步骤S2所述的三种编码器网络配置进行FAR和FDR的评估,包括以下步骤:

步骤S3.1、给定置信度α=0.01,通过不同于训练数据和验证集的正常基准数据子集评估FAR,结果为这些FAR都接近1%,这意味着使用FDR评估不同方法的检测性能是可行的。对于故障F2的三种情况,所有方法给出的FDR都很小,同样这些方法均可以很容易捕获到F3的三种情况,因此比较这些方法对F2和F3的绝对FDR不再有意义。相反,F1和F4集适合评估检测性能,因为它们的FDR中等大小。

步骤S3.2、pSAE中的S

步骤S3.3、经过验证pSAE可以捕获比其他两种方法更多的信息。特别是对于样本80和样本160之间的故障区域,VAE甚至在定量和定性上都将其视为正常情况。SAE提供了非常宽松的控制限制,以至于该区域被认为处于控制之下。相反,由于分散度惩罚的机制,pSAE会检测这些样品的一部分。

通过上述实施例,可以确定上述故障检测策略具有如下优点:pSAE解决了常规的SAE没有有效机制来避免低的检测裕度并抑制过多离群值的问题,使检测性能朝更高的水平优化。通过适当地抑制神经元的分散程度和重建误差,该新方案将SAE在建模复杂非线性方面的高能力与敏感检测故障所需的严格控制极限融为一体;通过引入相关的惩罚系数,可以平衡重构精度和惩罚强度,以实现最佳的检测性能。

在本实施例中,提供一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行以上实施例中的方法。

在本实施例中还提供了一种偏差度惩罚的增强型堆叠自动编码器处理装置,该装置中的模块可以理解为是上述计算机程序或者软件中的模块,该装置包括:获取模块,用于获取一神经元与其他神经元之间的分散度,其中,所述分散度用于指示该神经元到同一层的其他神经元的距离,所述神经元为堆叠自编码器中的神经元;第一配置模块,用于对每一层均配置该层对应的第一惩罚系数,其中,所述第一惩罚系数用于调整各层之间的分散度;第二配置模块,用于对重构误差配置第二惩罚系数,其中,所述第二惩罚系数用于调整重构精度;第三配置模块,用于将所述第一惩罚系数和所述第二惩罚系数配置在所述堆叠自编码器中。

由于该模型与上述方法中的步骤相对应,已经进行过说明的不再赘述。

这些计算机程序也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤,对应与不同的步骤可以通过不同的模块来实现。

上述程序可以运行在处理器中,或者也可以存储在存储器中(或称为计算机可读介质),计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号