首页> 中国专利> 异常状况下高频电力数据高鲁棒性压缩感知方法

异常状况下高频电力数据高鲁棒性压缩感知方法

摘要

异常状况下高频电力数据高鲁棒性压缩感知方法,基于稀疏字典的压缩感知方法对包含异常点的分钟级电表数据进行压缩感知,在数据集上学习一个稀疏字典,捕捉电表数据的数种波动模式与特征,进行压缩与重构,其中由边缘端检测包含异常点的分钟级电表数据并对其中的正常值压缩,由主站侧解压重构并对异常值进行补齐,针对异常点的数据标注与检测,使用半监督的协同森林方法扩充异常点数据集与输出支撑集;为了提高正常值的重构精度,使用原子特征遮蔽方法学习稀疏表示字典,为压缩感知提供前提条件;针对数据传输后可能存在的噪声与异常点的真实数据估计问题,使用序列生成对抗网络对观测信号进行重构,并给出预测值的分布。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-02-28

    公开

    发明专利申请公布

说明书

技术领域

本发明属于信号检测与估计与通信技术领域,涉及电力数据的压缩与重构,为一种异常状况下高频电力数据高鲁棒性压缩感知方法。

背景技术

电表数据出现异常采样值称为异常场景,异常类型包括缺失值和离群值,异常点指电表数据序列中出现异常值的位置。在异常场景中电表未采集到的数据表示为0值,会和正常场景电表采集到的0值混淆。在对电力数据的压缩与重构的场景下,分钟级电表数据波动幅度大,基于均值与方差的方法容易误判电表数据采集错误导致的离群点;电表数据在采集过程中会产生异常的采样值,不可避免地损失了部分样本的有用信息,直接忽略异常点或者将异常数据点与正常数据点一并压缩会降低其余正常值的重构精度;分钟级电表实际应用较新,有异常点标注的数据集也较少。

压缩感知方法主要针对稀疏信号进行压缩,但电表数据在时域上不是稀疏信号,需要根据某一稀疏基将稠密信号变换为某域上的稀疏信号再进行压缩感知,因此稀疏基的选择对压缩感知的重构精度影响较大。现有电力数据压缩感知算法主要针对周期性明显的电力数据进行压缩,以小波变换作为稀疏基的压缩感知算法对于的数据重构精度较高,但是对于周期性不明显的分钟级电表数据,传统基于离散傅里叶变换或小波变换的电表数据压缩感知算法重构精度较低。与秒级的电表数据相比,分钟级电表数据的周期性不强,存在数种波动模式,使用离散小波变换不能获得高稀疏度的原始信号稀疏表示,导致算法重建精度低。针对上述问题,本发明使用基于稀疏字典的压缩感知方法,在数据集上学习一个稀疏字典,和固定稀疏基的压缩感知方法相比能够更好的捕捉到电表数据的数种波动模式与特征,从而提高压缩率与重建精度。

因为稀疏字典的长度固定,在压缩过程中求解稀疏表示只能按照预设的固定长度对电力数据进行整体压缩,无法选择性的对电力数据中的部分点进行压缩。但是在电力数据出现异常点的情况下,简单的将异常点数据删除后进行压缩会破坏电力数据的时间整体性,从而降低重建精度;而如果对异常点的数据删除并补齐之后再对电力数据整体进行压缩,较差的补齐算法会对原始的电力数据引入额外的干扰项,同样会降低重建精度,同时,由于有异常点标注的数据集较少,也较难通过一些机器学习的方法直接训练重构精度较高的压缩感知方法。综上,现有基于稀疏字典的压缩感知方法直接压缩包含异常点的电力数据都会影响电力数据中其他正常点数值的重构精度。

发明内容

本发明要解决的技术问题是:对于周期性不明显的分钟级电表数据,传统基于离散傅里叶变换或小波变换的电表数据压缩感知方法重构精度较低,而基于稀疏字典的压缩感知方法对含有异常点的电力数据无法保证重构精度。对于分钟级电表数据,异常状况下异常点数量较多(~10%),补齐后压缩对重建精度影响较大,现有压缩算法只能先保证对正常值的重建精度,异常点的补齐则放在解压重建之后再处理,无法在压缩时处理,影响重构,因此,现有压缩感知技术只能按照固定长度对数据序列整体进行压缩,压缩时如包含异常点的数据会导致重建精度下降。

本发明的技术方案为:异常状况下高频电力数据高鲁棒性压缩感知方法,其特征是基于稀疏字典的压缩感知方法对包含异常点的分钟级电表数据进行压缩感知,在数据集上学习一个稀疏字典,捕捉电表数据的数种波动模式与特征,进行压缩与重构,其中由边缘端检测包含异常点的分钟级电表数据并对其中的正常值压缩,由主站侧解压重构并对异常值进行补齐,包括以下步骤:

1)对电力数据的数据集基于协同森林和度量学习进行异常点标签标注及扩充,在原始数据集上使用协同森林进行半监督训练,根据已知异常类型对原始数据集进行机器标注,对于未知的异常类型,基于孪生网络的度量学习模型在机器标注的数据上进行新类型发现,计算各个类型的机器标注的数据与其他所有类型数据的平均相似度,如果某条机器标注的数据与每个类型下所有人工标注数据的相似度的平均值都大于设定阈值,则认为该条机器标注的数据属于新类型的异常,对数据集进行标签扩充,最终得到标记及扩充的标记数据集,标记指对电力数据中异常点的进行标注;

2)在边缘端,对实时产生的高频电力数据序列X,基于少样本学习,使用基于孪生网络的度量学习模型检测数据序列中是否存在异常值并标记异常值位置,得到对应的记录异常点位置的向量X

3)用步骤1)得到的标记数据集预先训练稀疏字典,之后使用训练好的稀疏字典D与步骤2)中标记的异常值的位置,基于原子特征遮蔽的匹配追踪方法,屏蔽异常值对应稀疏字典特征列的残差计算,根据稀疏字典D和用于原子特征遮蔽的向量X

4)在主站侧基于序列生成对抗网络进行数据重构,首先使用去噪网络对压缩的数据进行去噪,对去噪后的压缩表示根据稀疏字典D初步重构,还原得到对应的高频电力数据X

本发明处理的数据为分钟级电表数据,分钟级电表数据实际应用较新、有异常点标注的数据集较少。在标注数据较少的情况下,稀疏字典容易在数据集上过拟合,导致后期重建时泛化性较差、重建精度低,不能很好满足实际需求,所以本发明使用基于半监督学习的数据集扩充算法,以少量含标注的数据对其余大量无标签数据的进行预测,最终得到规模较大的数据集,方便稀疏字典训练。在扩充后有标注的数据集上训练一个度量学习模型,度量学习模型可以有效提取并发现数据之间的特征关联,之后使用训练好的度量学习模型,对机器标注的电表数据集上发现新类型。

为了检测实时产生的高频电力数据序列中异常值的位置,本发明使用了少样本学习的异常检测算法,基于度量学习的少样本检测算法的优势在于,训练好度量学习模型之后,如果需要检测新类型的异常数据,只需要在支撑集中添加对应的数据和标签即可,不需要重新在更新的数据集上重新训练分类模型,方便更新迭代。该算法包含支撑集和度量学习模型两个部分,其中度量学习模型输入待比较的两个序列,输出两个序列之间的相似度。少样本异常检测算法的原理是使用度量模型将真实状况下需要检测未知序列与支撑集中的序列进行比较,取最相似的几个序列所属的类型作为未知序列的类型,模型所需要支撑集来源于第1)步最终产生的完全标注的电表数据集,度量学习模型来源于第1)步在人工标注数据集上训练的度量学习模型。基于度量学习模型的异常检测模型在检测异常点时,比较次数和支撑集的大小有关,支撑集过大会降低异常检测算法的检测速度,因此本发明还对每个类型的电表数据抽取少量代表性的样本作为支撑集,从而在降低比较次数、提升检测速度的同时保持检测精度。为了得到异常检测算法支撑集所需要的少量代表性样本,使用聚类方法在扩充后的电表数据集中、每个标签数据集上进行聚类,得到每种类型数据的代表性样本,作为轻量支撑集。之后对度量学习模型进行蒸馏操作,得到轻量化的度量学习模型与轻量支撑集,与稀疏字典和稀疏求解方法一起部署在边缘端上。

对于现有稀疏字典长度固定,以及无法对异常点进行处理压缩的问题,本发明提出了基于原子特征遮蔽匹配追踪的压缩感知方法,在求解稀疏表示的过程中选择性的屏蔽异常值位置的字典稀疏原子特征列,从而提高正常点数值的重构精度。

最后,主站侧在收到边缘端传来的稀疏表示与异常点位置向量,首先使用已知的稀疏字典对稀疏表示进行重建,之后使用在已扩充数据集上训练的生成对抗网络对重建的数据进行优化;生成器输入一段序列,输出高斯分布的均值和方差数值。在具体场景下,生成对抗网络中的生成器接受在异常点位置之前的正常值序列,输出异常点位置数值服从高斯分布的预测,异常点的最终数据取值是对高斯分布的进行采样得到。和单纯给出异常点补齐数值的现有方法相比,本发明使用的方法能够给出数据的数值分布区间,方便主站侧人员更深入了解异常点数据的内在特征。

本发明与现有技术相比,其显著效果如下:

1、针对周期性不强、波动存在数种模式的分钟级数据,本发明使用基于稀疏字典的压缩感知方法,在数据集上学习一个稀疏字典,和固定稀疏基的压缩感知方法相比能够更好的捕捉到分钟级电表数据的数种波动模式与特征,从而提高压缩率与重建精度。

2、训练稀疏字典需要较大的数据集,所以本发明使用半监督学习方法扩充数据集,使用度量学习模型对机器扩充的数据集进行新类型发现。

3、现有方法在压缩过程中求解稀疏表示只能按照预设的固定长度对电力数据进行整体压缩,直接压缩包含异常点的电力数据都会影响电力数据中其他正常点数值的重构精度。本发明为了解决现有稀疏字典压缩感知算法的问题,提出了基于原子特征遮蔽匹配追踪的压缩感知方法,在求解压缩表示的时候屏蔽异常点位置的计算,从而提高正常点位置的重建精度。

4、因为分钟级电表数据应用较新,数据更新较快,异常检测算法需要快速适应新数据。本发明基于度量学习的少样本检测算法的优势在于,训练好度量学习模型之后,如果需要检测新类型的异常数据,只需要在支撑集中添加少量对应的数据和标签即可,不需要重新在更新的数据集上重新训练分类模型,方便更新迭代。

5、现有的补齐方法只能给出异常点补齐数值相比,本发明使用的生成对抗网络方法能够给出补齐数据的数值分布区间,方便主站侧人员更深入了解异常点数据的内在特征。另外现有的监督学习范式的补齐方法对数据的数量和质量要求较高,而对位学习范式的生成对抗网络在少量人工标注的数据结合机器标注或生成的数据上也能有效训练。

附图说明

图1为本发明的流程图。

图2为本发明使用的度量学习模型结构。

图3为本发明使用的基于原子特征遮蔽匹配追踪的稀疏表示构造算法示意图。

图4为本发明使用的预训练去噪网络结构。

图5为本发明使用的基于序列生成对抗网络的重构算法框架。

具体实施方式

本发明提出了一种异常状况下高频电力数据高鲁棒性压缩感知与重构方法,针对异常点的数据标注与检测问题,使用半监督的协同森林方法扩充异常点数据集与输出支撑集,基于度量学习实现轻量级少样本异常检测模型;针对含异常点数据传输时的压缩问题,使用基于原子特征遮蔽的匹配追踪方法对原信号进行稀疏表示之后进行压缩感知;针对数据传输后可能存在的噪声与异常点的真实数据估计问题,使用基于序列生成对抗网络的重构算法对含噪声压缩感知信号进行重构,并给出异常位置在无异常状况下的电表采集数据的可能取值范围。

下面结合说明书附图和具体实施方式对本发明做进一步详细描述。

如图1所示为本发明的流程图,详细步骤如下:

(1)基于协同森林与度量学习的数据集标签扩充方法

在半监督学习之前对数据集进行预处理,将包含的数据集按照设定大小进行切片,窗口内包含异常值的样本再细分为缺失型、离群型等,之后使用协同森林对数据进行标签扩充。协同森林方法只能根据已知类别集合的未知样本进行标签扩充,不能发现未知类别的未知样本,所以本发明还使用基于度量学习模型的数据扩充算法,针对流式数据进行未知类型发现。在检测过程中经常会遇到未知数据点的样本,如果模型输出的距离任一类别样本的平均相似度都小于设定数值,则判定该数据点为新的异常类型,加入扩充数据集。

协同森林的算法训练步骤如下所示

1.初始化随机森林,设置森林中决策树的大小,将样本集合划分为有标签与无标签集合。有标签集合初始为人工标注的数据集,无标签集合为其他没有标注的数据集。

2.在有标签上的数据上进行训练。

3.使用训练模型预测标签、将置信度大于设定阈值的样本加入有标签数据集,置信度定义为投票给特定标签的分类器数量。

4.当随机森林中没有决策树更新时,停止迭代,否则迭代执行2、3两步骤。

无标签数据经过协同森林算法处理之后,得到机器标注的有标签数据集。至此数据集中的数据都有了标签,现在的数据集是人工标注的数据集与机器标注的数据集的并集。

协同森林算法可以区别已知的异常类型,对于未知的异常类型,本发明提出基于孪生网络的度量学习模型,该度量学习模型可以给出有助于在已有分类上发现新的异常。

本发明提出的度量学习模型结构如图1所示,分为孪生网络层与全连接层。其中孪生网络层的共享层部分为双向循环神经网络。双向循环神经网络由M.Schuster等人在文章Bidirectional recurrent neural networks(IEEE Transactions on SignalProcessing)中提出,和单向循环神经网络相比,双向循环神经网络能更好提取序列前后向的信息,下称Bi-RNN。Bi-RNN的公式如下所示:

其中

取Bi-RNN最后一刻的输出为输入高频序列X的输出,如下公式所示:

在进行异常类型发现时,对于两个长度为n

在训练时使用对比损失作为模型损失,则对于数据序列P、Q,模型的对比损失L

度量学习模型在扩充后所有有标注的数据集上进行训练之后,仅在机器标注的数据上进行新类型发现。使用度量学习模型计算各个类型的机器标注的数据与其他所有类型的平均相似度,如果某条机器标注的数据与每个类型下所有人工标注数据的相似度的平均值都大于设定阈值,则认为该条机器标注的数据属于新类型的异常。

对所有机器标注的数据使用度量学习模型进行新类型发现操作后,得到最终的扩充过的标记数据集。

(2)基于知识蒸馏的轻量级少样本异常数据检测方法。

经过步骤(1)的数据扩充后,得到扩充的有标注的数据集和度量学习模型。

本步骤的目的是对实际输入的高频电力数据进行异常点检测,为之后的压缩算法提供特征选择序列以屏蔽异常点对应位置的稀疏字典计算,从而提高正常点位置的重建精度。

本发明借鉴少样本学习的思想,少样本异常检测算法包含支撑集和度量学习模型两个部分,其中度量学习模型输入待比较的两个序列,输出两个序列之间的相似度。少样本异常检测算法的原理是使用度量模型将真实状况下需要检测未知序列与支撑集中的序列进行比较,取最相似的几个序列所属的类型作为未知序列的类型,模型所需要支撑集来源于第一步最终产生的电表数据集。基于度量学习的少样本检测算法的优势在于,训练好度量学习模型之后,如果需要检测新类型的异常数据,只需要在支撑集中添加对应的数据和标签即可,不需要重新在更新的数据集上重新训练分类模型。

基于步骤(1)中在人工标注数据上训练好的度量学习模型对未知异常点位置的数据进行异常检测,对于一个未知高频电力数据序列X的一个子序列片段

如果模型输出的类别category属于异常类别,则标记片段

对高频电力数据X切分出的所有片段进行检测之后,得到对应的记录异常点位置的向量X

基于度量学习模型的异常检测模型在检测异常点时,异常检测模型的运行速度与模型的参数规模和支撑集的大小有关。模型参数规模越大,异常检测模型的运行速度就越慢;支撑集中每个类型的数据样本越多,在异常检测时的比较次数也越多。因此本发明为了提升异常检测模型的运行速度,在模型轻量化与支撑集轻量化两个方面加快模型运行速度。模型轻量化方面,使用知识蒸馏将步骤(1)的大模型蒸馏为步骤(2)中使用的参数规模更小的小模型;支撑集轻量化方面,对每个类型的电表数据抽取少量代表性的样本作为支撑集,从而在降低比较次数、提升检测速度的同时保持检测精度。

模型轻量化操作使用知识蒸馏操作。知识蒸馏的思想为在训练一个较大的原模型之后,使用轻量模型同时拟合原模型的分类输出以及训练样本的标签。

在支撑集轻量化方面,使用聚类方法在扩充后的电表数据集中、每个标签数据集上进行聚类,得到每种类型数据的代表性样本,作为轻量支撑集。本发明使用基于动态时间规整的聚类算法进行特征筛选,部署在边缘端上,支撑集轻量化操作描述如下:

对于每一个类别的数据集,求其类别中心以及离类别中心最近的k个样本,作为轻量异常检测模型的支撑集,本发明使用K-Means中求解类别中心的方法,以动态时间规整作为相似度,求解每个类别的代表性数据样本,作为检测模型需要的支撑集。和氏距离相比,动态时间规整(Dynamic Time Warping)可以更好地捕捉两个序列之间的变化相似度,对于两个不等长的序列也可以进行比较,在序列数据点缺失的情况下也不影响相似度求解。动态时间规整距离为现有技术,不再详述。

(3)基于原子特征遮蔽匹配追踪的稀疏字典训练与压缩感知

经过异常检测后,需要对高频电力数据进行压缩。为了得到高频电力数据X的一个压缩表示,本发明对高频电力数据X进行稀疏分解,分解公式如下:

X=SDM (7)

其中

为了得到稀疏字典D,使用本发明提出一种稀疏字典训练方法,在步骤(1)中得到的包含异常数据和正常数据的数据集上训练稀疏字典,本发明对高频电力数据X进行稀疏分解的目标函数如下公式表述:

其中M=diag(1-abs(X

式(8)第一行表示找到一个稀疏向量S,使得稀疏分解误差最小,第二行是稀疏向量的稀疏度约束,n

对于已知异常值位置的数据,将X

3.1)随机初始化稀疏字典

3.2)对于数据样本X和对应的X

a)在(8)式的约束下,对特征遮蔽后的字典D’=DM,使用正交匹配追踪方法计算X对应的稀疏向量S;

b)使用K-SVD字典学习方法,根据稀疏向量S更新特征遮蔽后的字典D’;

c)使用特征遮蔽后的稀疏字典D’更新稀疏字典D。

d)迭代次数k自增1。

经过上述的字典训练方法后,得到训练好的稀疏字典D。之后实际进行压缩感知时,根据训练的稀疏字典D和当前高频电力数据对应的字典原子特征遮蔽向量X

步骤(2)得到轻量化的度量学习模型与轻量支撑集,与稀疏字典和稀疏求解方法一起部署在边缘端上。边缘端在使用稀疏求解方法压缩实际数据时,首先使用轻量的度量学习模型来标记实际数据的异常点位置与类型,之后使用本发明提出的原子特征遮蔽的压缩感知,屏蔽检测得到的异常点所在位置对应的稀疏原子特征,从而在不破坏序列的时间整体性、不引入额外干扰项的情况下对其余正常值进行压缩,得到最后的稀疏表示与异常点位置向量(特征遮蔽向量)作为压缩数据。

(4)基于序列生成对抗网络的压缩感知重构方法

本步骤的模型分为生成器、判别器与去噪网络三个部分,如图5所示。

在从边缘端到主站侧的传输过程中,高频电力数据的压缩表示S会因为传输原因附带噪声,变成含噪声的压缩表示S',本发明首先使用去噪网络对S'进行去噪。

去噪网络以加入高斯噪声的压缩表示S'为输入,以去噪后的稀疏表示值S为目标,预训练结束后固定去噪网络。去噪网络基于自编码器结构,其中h

h

之后解码网络接受编码网络的输出,得到去噪结果作为去噪网络的输出,如下所示,其中h

r=h

训练时使用均方误差作为去噪网络损失,输入加入高斯噪声的测量值,使得自编码器的输出尽可能靠近原始测量值,损失如下所示:

L

经过去噪网络之后,根据公式(7)对去噪后的压缩表示初步重构,还原得到对应的高频电力数据X

在训练完去噪网络,固定去噪网络的参数,训练序列生成对抗网络,本发明使用的序列生成对抗网络优化目标如下所示,其中D为判别器,G为生成器,z为含有异常值的高频电力数据,x为正常的高频电力数据,p

训练模型包括两个阶段,判别器D训练阶段与生成器G训练阶段。在判别器D训练阶段,给定生成器G,判别器D的输入数据为训练集的真实高频电力数据x和生成器G的生成数据G(z)。数据经过判别器D后,判别器D输出0-1之间的数值,该数值代表输入未知样本数据为真实电表数据的概率,数值越接近于1表示输入为真实电表数据的可能性越大。在判别器训练阶段中,需要判别器输出的值尽可能接近于1,即取一个合适的D

训练整个生成对抗网络时,判别器与生成器在训练时互相对抗,固定一个并训练另一个,使得判别器与生成器的性能在训练时轮流提升,最后达到纳什均衡,

传统的序列生成网络输出通常为文本生成任务优化,在每一个时间刻输出一个标量,不能很好的捕捉时间序列内在的分布特征。针对上述问题,本发明提出基于序列生成对抗网络的数据重构算法。

本发明序列生成对抗网络使用的生成器网络如下公式所示,其中θ

其中μ为均值,σ为方差,l

生成器损失如下公式所示。

L

判别器使用全连接网络搭建,公式如下所示,其中W

D(x)=σ(W

判别损失如下所示:

步骤(4)中,主站侧根据稀疏字典D得到步骤重构X

X

主站侧在收到边缘端传来的稀疏表示与异常点位置向量,首先使用已知的稀疏字典对稀疏表示进行重建,之后使用在已扩充数据集上训练的生成对抗网络对重建的数据进行优化;生成器输入一段序列,输出高斯分布的均值和方差数值。在具体场景下,本发明生成对抗网络中的生成器接受在异常点位置之前的正常值序列,输出异常点位置数值服从高斯分布的预测,异常点的最终数据取值是对高斯分布的进行采样得到,和单纯输出数值的补齐方法相比方便主站侧人员更深入了解异常点数据的内在特征

综上所述,本发明所述的高频电力数据高鲁棒性压缩感知方法,结合无监督标签扩充、度量学习、压缩感知、生成对抗网络等技术,实现了高频电力数据高鲁棒性压缩感知的方法;考虑到分钟级电表数据标注少的问题,使用半监督的协同森林方法扩充异常点数据集与支撑集;考虑到可能出现的未知类型的异常数据,基于度量学习实现轻量级少样本异常检测模型;考虑到少量异常值会影响重构精度的问题,使用基于原子特征遮蔽的匹配追踪方法屏蔽异常值的压缩计算,提高其余正常值的重构精度;使用基于序列生成对抗网络的重构算法,对含噪声压缩感知信号进行重构,并给出补齐值的取值范围,增强模型的可解释性与对噪声的鲁棒性。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号