法律状态公告日
法律状态信息
法律状态
2018-03-16
授权
授权
2015-08-26
实质审查的生效 IPC(主分类):G06Q50/06 申请日:20150506
实质审查的生效
2015-07-29
公开
公开
技术领域
本发明一种火电厂制粉系统中数据处理的方法,具体涉及一种火电厂制粉 系统数据中异常数据的检测方法。
背景技术
制粉系统是火力发电厂的主要辅助系统之一,为了保证其运行安全和运行 效率,数据挖掘技术被应用在制粉系统的分析及控制上。由于制粉系统的数据 不可避免的存在不完整、不一致的脏数据,无法直接进行数据挖掘,因此我们 需要对制粉系统的数据进行清洗。
目前大多采用异常数据检测算法来识别被认为被污染了的脏数据。异常数 据检测算法为每个数据赋予一个异常因子,异常因子值高于设定阈值的数据被 认为是异常数据。常见的异常数据检测算法有LOF算法和COF算法。LOF算法 由人工选择MinPts参数来确定对象的近邻个数以及MinPts近邻距离,由此计算对 象的局部密度。LOF值是对象局部密度和近邻的平均局部密度之间的比值。因 此,对象的局部密度越低并且近邻的局部密度越高,那么对象的LOF值越高。 COF算法计算每个对象的链接异常程度COF值来表示对象的异常程度,COF值 是对象平均链接距离和对象的MinPts近邻的平均链接距离的平均值之间的比值。 还有一些经过改进的异常数据检测算法,但这些算法都不能很好地区分正常数 据集边缘的对象和异常数据,并且MinPts的选取会影响到异常数据检测的结果。
由于自身的局限性,上述算法对火电厂制粉系统的数据的异常数据检测结 果并不理想,导致火电厂制粉系统的数据挖掘结果不准确。
发明内容
为了解决上述现有技术存在的问题,本发明提供一种火电厂制粉系统数据 中异常数据的检测方法,基于最小球计算密度,实现对制粉系统的工作数据进 行检测分析并判断是否为异常数据,以提高对火电厂制粉系统的数据挖掘的效 果。
为了达到上述目的,本发明采用如下技术方案:
一种火电厂制粉系统数据中异常数据的检测方法,步骤如下:
步骤1:首先火电厂制粉系统采集信号数据构成现场历史数据库D,该数据 库D包括六个变量:磨机负荷、磨机出入口压差、磨机入口负压、磨机出口温度、 粗粉分离器出口负压和细粉分离器出口负压;这样,数据库D是一个六维数据 库;这里设定正整数k为12(k≥6);计算数据集D中对象两两之间的距离并且 确定出每个对象p的k近邻NNk(p);
对任意的自然数k,定义p的k-距离为p和某个对象o之间的距离d(p,o), 这里的o满足:
(1)至少存在k个对象o′∈D\{p},使得d(p,o′)≤d(p,o),并且
(2)至多存在k-1个对象o′∈D\{p},使得d(p,o′)<d(p,o);
p的k近邻包含所有与p的距离不超过k-距离的对象;这样p的k近邻的个 数可能比k大;
步骤2:火电厂制粉系统通过步骤1得到p的k近邻NNk(p),将近邻NNk(p)按 照距离p的远近进行排序,构成距离近邻序列NNS(p)={p,c1,c2,……,cr},这里 r=|NNk(p)|,ci∈NNk(p),i=1,2,……,r;步骤2是一个反复计算的过程,NNS(p)的 初始值是{p};在每次计算时,算法不断从NNk(p)剩下对象中找到距离p最近的 数据,并把找出的对象加到NNS(p)中去;如果找到的对象不只一个,则根据事 先排好的对象顺序加到NNS(p)中去;在每次计算完毕后,更新NNS(p)信息后再 进行下一次计算;当NNk(p)中所有对象都被陆续加入到NNS(p)后,该步骤结束;
步骤3:火电厂制粉系统根据步骤2所得NNS(p)计算所有数据的最小球; 根据包含p的k-距离近邻的最小球,计算p的空间密度;最小球是包含NNS(p)中 所有数据的球中半径最小的那个球;对于2维数据来说,最小球是一个圆,而3 维数据的最小球是球体,3维以上的最小球是超球;
最小球求解问题转变为求下列方程组的最优解问题:
O是最小球球心,R是最小球半径;
步骤4:火电厂制粉系统得到所有点的最小球的半径之后,对象p的空间密 度表示为:
这里|NNS(p)|是NNS(p)中的数据个数,R(p)是最小球半径;
步骤5:火电厂制粉系统计算出每个数据的空间密度之后,计算每两个数据 的空间密度差;两个数据的空间密度差表示为:Δspden(x,y)=|spden(y)-spden(x)|, 因此Δspden(x,y)=Δspden(y,x);
步骤6:火电厂制粉系统得到空间密度和密度差之后,计算每个数据的背离 程度;在p的k近邻NNS(p)中,排位越靠前的数据对p的影响越大;依据空间密 度差,计算NNS(p)中的第i个数据对对象p的密度背离程度 ci为NNS(p)中的第i个数据;
那么,NNS(p)中的数据对p总的密度背离程度表示为:
这里r=|NNk(p)|;
步骤7:火电厂制粉系统通过下列算式得到p的异常程度:
NDDOF值表示数据的异常程度;设定NDDOF阈值为1.5,当NDDOF大于阈值时 认为是异常数据。
所述火电厂制粉系统采用PLC和计算机组成的直接数字控制系统,并对相 关过程变量进行采集,采集频率为1Hz以上。
所述k大于数据库的维数。
和现有技术相比较,本发明具备如下优点:
步骤3与步骤4通过最小球方法计算出的数据空间密度比其他算法计算的 密度能更好区分异常数据和数据集边缘的数据;步骤5与步骤6计算了NNS(p)中 不同位置的数据对p的不同背离程度,比其他算法中数据对p的影响计算方法更 有意义;步骤7计算p的总背离程度很好地表示p的异常程度;算法中的k值只 要大于数据库维数就能满足算法要求。
火电厂制粉系统现场记录大量的数据,这些数据不可避免的会是错误或者 无效的。本发明方法对火电厂制粉系统的现场记录数据进行异常数据检测,发 现并清除其中的脏数据,进而提高制粉系统数据挖掘的效果。
具体实施方式
下面结合实施例对本发明作详细的说明:
本发明一种火电厂制粉系统数据中异常数据的检测方法,步骤如下:
步骤1:首先火电厂制粉系统采集信号数据构成现场历史数据库D,该数据 库D包括六个变量,从变量1到变量6分别是:磨机负荷、磨机出入口压差、磨 机入口负压、磨机出口温度、粗粉分离器出口负压和细粉分离器出口负压。这 样,数据库D是一个六维数据库,如表1所示。在此实施例中,采集60组制粉 系统现场记录数据。
表1火电厂制粉系统历史数据
计算数据集D中对象两两之间的距离并且确定出每个对象p的k近邻 NNk(p)。我们将k值设定为12。p的k-距离为p和某个对象o之间的距离d(p,o), 这里的o满足:
(1)至少存在k个对象o′∈D\{p},使得d(p,o′)≤d(p,o),并且
(2)至多存在k-1个对象o′∈D\{p},使得d(p,o′)<d(p,o)。
p的k近邻包含所有与p的距离不超过k-距离的对象。
步骤2:火电厂制粉系统通过步骤1得到50个点的NNk(p)。根据p的NNk(p), 将近邻按照距离p的远近进行排序,构成距离近邻序列NNS(p)={p,c1,c2,……,cr}, 这里r=|NNk(p)|,ci∈NNk(p),i=1,2,……,r。步骤2是一个反复计算的过程,NNS(p) 的初始值是{p}。在每次计算时,算法不断从NNk(p)剩下对象中找到距离p最近 的数据,并把找出的对象加到NNS(p)中去。如果找到的对象不只一个,则根据 事先排好的对象顺序加到NNS(p)中去。在每次计算完毕后,更新NNS(p)信息后 再进行下一次计算。当NNk(p)中所有对象都被陆续加入到NNS(p)后,该步骤结 束。
步骤3:火电厂制粉系统根据步骤2所得NNS(p)计算所有数据的最小球。 最小球是包含NNS(p)中所有数据的球中半径最小的那个球。对于2维数据来说, 最小球是一个圆,而3维数据的最小球是球体,3维以上的最小球是超球。
最小球求解问题转变为求下列方程组的最优解问题:
O是最小球圆心,R是最小球半径。
火电厂制粉系统计算所有数据的最小球半径如表2所示。
步骤4:火电厂制粉系统得到所有点的最小球的半径之后,计算数据的空间 密度:
这里|NNS(p)|是NNS(p)的数据个数,R(p)是最小球半径。
火电厂制粉系统计算所有数据的空间密度最小球半径如表2所示。
步骤5:火电厂制粉系统计算出每个数据的空间密度之后,计算每两个数据 的空间密度差。两个数据的空间密度差表示为: Δspden(x,y)=|spden(y)-spden(x)|,因此,Δspden(x,y)=Δspden(y,x)。
步骤6:火电厂制粉系统得到空间密度和密度差之后,计算每个数据的背 离程度。依据空间密度差,NNS(p)中的第i个数据对数据p的密度背离程度 ci为NNS(p)中的第i个数据。
在p的k近邻NNS(p)中,排位越靠前的数据对p的影响越大。那么,NNS(p)中的 数据对p总的密度背离程度表示为:
这里r=|NNk(p)|。
步骤7:火电厂制粉系统通过下列算式得到p的异常程度:
NDDOF值表示数据的异常程度,我们设定NDDOF阈值为1.5,当NDDOF值大于 阈值时被认为是异常数据。火电厂制粉系统计算所有数据的NDDOF值如表2所 示。
表2火电厂制粉系统数据各项指标
表2所示是火电厂制粉系统各个数据的最小球半径、空间密度和异常程度 NDDOF值。前55组数据的最小球半径明显低于最后5组数据的最小球半径。最 后5组数据的近邻恰好一样,因此5组数据的最小球半径和空间密度值都相等; 又因为近邻序列的顺序不一样,因此NDDOF值不相等。对于火电厂制粉系统工 作数据的NDDOF值,最后5组的NDDOF值是大于阈值1.5的,因此认定最后5 组数据是异常数据。基于空间最小球计算密度的火电厂制粉系统的异常数据检 测方法能很好地检测出数据集中的异常数据,清除其中的脏数据,进而提高制 粉系统数据挖掘的准确性。
机译: 一种在叔烃源矿中的石制粉尘屏障井中的方法和实施该方法的石制粉尘袋
机译: 分布式环境中异常数据的检测方法及系统
机译: 移动通信网络中异常数据流的检测方法