首页> 中国专利> 一种火电厂制粉系统数据中异常数据的检测方法

一种火电厂制粉系统数据中异常数据的检测方法

摘要

一种火电厂制粉系统数据中异常数据的检测方法,包括选取适当的k来计算数据的近邻数据,当近邻数据确定之后,计算包含近邻数据的最小球,再根据近邻数据个数和最小球半径计算数据的空间密度,用空间密度和近邻序列计算数据的密度背离程度,进而计算数据的密度近邻背离程度NDDOF值来表征数据的异常程度;本发明在准确检测出异常数据的基础上,提高火电厂制粉系统的数据挖掘效果。

著录项

  • 公开/公告号CN104809662A

    专利类型发明专利

  • 公开/公告日2015-07-29

    原文格式PDF

  • 申请/专利权人 西安交通大学;

    申请/专利号CN201510227457.0

  • 申请日2015-05-06

  • 分类号

  • 代理机构西安智大知识产权代理事务所;

  • 代理人何会侠

  • 地址 710049 陕西省西安市咸宁路28号

  • 入库时间 2023-12-18 10:16:50

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-03-16

    授权

    授权

  • 2015-08-26

    实质审查的生效 IPC(主分类):G06Q50/06 申请日:20150506

    实质审查的生效

  • 2015-07-29

    公开

    公开

说明书

技术领域

本发明一种火电厂制粉系统中数据处理的方法,具体涉及一种火电厂制粉 系统数据中异常数据的检测方法。

背景技术

制粉系统是火力发电厂的主要辅助系统之一,为了保证其运行安全和运行 效率,数据挖掘技术被应用在制粉系统的分析及控制上。由于制粉系统的数据 不可避免的存在不完整、不一致的脏数据,无法直接进行数据挖掘,因此我们 需要对制粉系统的数据进行清洗。

目前大多采用异常数据检测算法来识别被认为被污染了的脏数据。异常数 据检测算法为每个数据赋予一个异常因子,异常因子值高于设定阈值的数据被 认为是异常数据。常见的异常数据检测算法有LOF算法和COF算法。LOF算法 由人工选择MinPts参数来确定对象的近邻个数以及MinPts近邻距离,由此计算对 象的局部密度。LOF值是对象局部密度和近邻的平均局部密度之间的比值。因 此,对象的局部密度越低并且近邻的局部密度越高,那么对象的LOF值越高。 COF算法计算每个对象的链接异常程度COF值来表示对象的异常程度,COF值 是对象平均链接距离和对象的MinPts近邻的平均链接距离的平均值之间的比值。 还有一些经过改进的异常数据检测算法,但这些算法都不能很好地区分正常数 据集边缘的对象和异常数据,并且MinPts的选取会影响到异常数据检测的结果。

由于自身的局限性,上述算法对火电厂制粉系统的数据的异常数据检测结 果并不理想,导致火电厂制粉系统的数据挖掘结果不准确。

发明内容

为了解决上述现有技术存在的问题,本发明提供一种火电厂制粉系统数据 中异常数据的检测方法,基于最小球计算密度,实现对制粉系统的工作数据进 行检测分析并判断是否为异常数据,以提高对火电厂制粉系统的数据挖掘的效 果。

为了达到上述目的,本发明采用如下技术方案:

一种火电厂制粉系统数据中异常数据的检测方法,步骤如下:

步骤1:首先火电厂制粉系统采集信号数据构成现场历史数据库D,该数据 库D包括六个变量:磨机负荷、磨机出入口压差、磨机入口负压、磨机出口温度、 粗粉分离器出口负压和细粉分离器出口负压;这样,数据库D是一个六维数据 库;这里设定正整数k为12(k≥6);计算数据集D中对象两两之间的距离并且 确定出每个对象p的k近邻NNk(p);

对任意的自然数k,定义p的k-距离为p和某个对象o之间的距离d(p,o), 这里的o满足:

(1)至少存在k个对象o′∈D\{p},使得d(p,o′)≤d(p,o),并且

(2)至多存在k-1个对象o′∈D\{p},使得d(p,o′)<d(p,o);

p的k近邻包含所有与p的距离不超过k-距离的对象;这样p的k近邻的个 数可能比k大;

步骤2:火电厂制粉系统通过步骤1得到p的k近邻NNk(p),将近邻NNk(p)按 照距离p的远近进行排序,构成距离近邻序列NNS(p)={p,c1,c2,……,cr},这里 r=|NNk(p)|,ci∈NNk(p),i=1,2,……,r;步骤2是一个反复计算的过程,NNS(p)的 初始值是{p};在每次计算时,算法不断从NNk(p)剩下对象中找到距离p最近的 数据,并把找出的对象加到NNS(p)中去;如果找到的对象不只一个,则根据事 先排好的对象顺序加到NNS(p)中去;在每次计算完毕后,更新NNS(p)信息后再 进行下一次计算;当NNk(p)中所有对象都被陆续加入到NNS(p)后,该步骤结束;

步骤3:火电厂制粉系统根据步骤2所得NNS(p)计算所有数据的最小球; 根据包含p的k-距离近邻的最小球,计算p的空间密度;最小球是包含NNS(p)中 所有数据的球中半径最小的那个球;对于2维数据来说,最小球是一个圆,而3 维数据的最小球是球体,3维以上的最小球是超球;

最小球求解问题转变为求下列方程组的最优解问题:

minO,RRsubjectto||ci-O||R,i=1,···,r

O是最小球球心,R是最小球半径;

步骤4:火电厂制粉系统得到所有点的最小球的半径之后,对象p的空间密 度表示为:

spden(p)=|NNS(p)|R(p)

这里|NNS(p)|是NNS(p)中的数据个数,R(p)是最小球半径;

步骤5:火电厂制粉系统计算出每个数据的空间密度之后,计算每两个数据 的空间密度差;两个数据的空间密度差表示为:Δspden(x,y)=|spden(y)-spden(x)|, 因此Δspden(x,y)=Δspden(y,x);

步骤6:火电厂制粉系统得到空间密度和密度差之后,计算每个数据的背离 程度;在p的k近邻NNS(p)中,排位越靠前的数据对p的影响越大;依据空间密 度差,计算NNS(p)中的第i个数据对对象p的密度背离程度 ci为NNS(p)中的第i个数据;

那么,NNS(p)中的数据对p总的密度背离程度表示为:

NDD(p)=Σi=1rΔspden(p,ci)i

这里r=|NNk(p)|;

步骤7:火电厂制粉系统通过下列算式得到p的异常程度:

NDDOF(p)=|NNk(p)|*NDD(p)ΣoNNk(p)NDD(o)

NDDOF值表示数据的异常程度;设定NDDOF阈值为1.5,当NDDOF大于阈值时 认为是异常数据。

所述火电厂制粉系统采用PLC和计算机组成的直接数字控制系统,并对相 关过程变量进行采集,采集频率为1Hz以上。

所述k大于数据库的维数。

和现有技术相比较,本发明具备如下优点:

步骤3与步骤4通过最小球方法计算出的数据空间密度比其他算法计算的 密度能更好区分异常数据和数据集边缘的数据;步骤5与步骤6计算了NNS(p)中 不同位置的数据对p的不同背离程度,比其他算法中数据对p的影响计算方法更 有意义;步骤7计算p的总背离程度很好地表示p的异常程度;算法中的k值只 要大于数据库维数就能满足算法要求。

火电厂制粉系统现场记录大量的数据,这些数据不可避免的会是错误或者 无效的。本发明方法对火电厂制粉系统的现场记录数据进行异常数据检测,发 现并清除其中的脏数据,进而提高制粉系统数据挖掘的效果。

具体实施方式

下面结合实施例对本发明作详细的说明:

本发明一种火电厂制粉系统数据中异常数据的检测方法,步骤如下:

步骤1:首先火电厂制粉系统采集信号数据构成现场历史数据库D,该数据 库D包括六个变量,从变量1到变量6分别是:磨机负荷、磨机出入口压差、磨 机入口负压、磨机出口温度、粗粉分离器出口负压和细粉分离器出口负压。这 样,数据库D是一个六维数据库,如表1所示。在此实施例中,采集60组制粉 系统现场记录数据。

表1火电厂制粉系统历史数据

序号 变量1 变量2 变量3 变量4 变量5 变量6 1 51.11 117.95 2693.83 95.1 -4471.96 -6672.5 2 51.11 117.95 2693.83 95.1 -4471.96 -6672.5 3 51.56 118.31 2687.5 95.1 -4455.27 -6665.32 4 51.4 118.02 2683.55 95.1 -4453.9 -6650.81 5 51.4 118.02 2683.55 95.1 -4453.9 -6650.81 6 51.45 118.11 2683.86 95.1 -4462.84 -6665.9 7 51.67 118.19 2678.88 95.1 -4464.65 -6660.13 8 51.67 118.19 2678.88 95.1 -4464.65 -6660.13 9 51.42 117.94 2657.21 95.1 -4463.22 -6660.33 10 52 118.37 2649.36 95.1 -4465.52 -6661.7 11 52 118.37 2649.36 95.1 -4465.52 -6661.7 12 51.68 117.88 2632.37 95.1 -4457.04 -6646.44 13 52.16 118.14 2635.32 95.1 -4452.81 -6639.19 14 52.16 118.14 2635.32 95.1 -4452.81 -6639.19 15 52.49 118.09 2640.4 95.1 -4443.82 -6633.15 16 52.14 118.01 2623.51 95.1 -4453.06 -6643.8 17 52.14 118.01 2623.51 95.1 -4453.06 -6643.8 18 52.24 118.38 2617.92 95.1 -4436.91 -6629.33 19 51.81 117.98 2626.21 95.1 -4432.81 -6622.6 20 51.81 117.98 2626.21 95.1 -4432.81 -6622.6 21 52.25 118.42 2628.2 95.1 -4432.3 -6618.91 22 51.93 118.15 2630.71 95.1 -4419.23 -6605.48 23 51.93 118.15 2630.71 95.1 -4419.23 -6605.48 24 51.81 118.17 2627.57 95.1 -4413.68 -6604.22 25 51.97 118.31 2642.24 95.1 -4414.87 -6611.61 26 51.97 118.31 2642.24 95.1 -4414.87 -6611.61 27 51.02 117.98 2667.17 95.1 -4425.51 -6619.35 28 51.47 118.29 2669.17 95.1 -4432.36 -6633.62 29 51.47 118.29 2669.17 95.1 -4432.36 -6633.62

30 51.44 117.89 2675.77 95.1 -4447.42 -6644.35 31 51.85 118.08 2677.27 95.1 -4452.13 -6645.51 32 51.85 118.08 2677.27 95.1 -4452.13 -6645.51 33 52.28 118.06 2691.93 95.1 -4459.84 -6654.04 34 51.97 117.81 2686.38 95.1 -4463.8 -6660.94 35 51.97 117.81 2686.38 95.1 -4463.8 -6660.94 36 52.38 118.16 2683.42 95.1 -4459 -6664.03 37 51.99 117.78 2680.07 95.1 -4467.88 -6665.83 38 51.99 117.78 2680.07 95.1 -4467.88 -6665.83 39 52.5 118.08 2679.04 95.1 -4457.52 -6653.83 40 52.54 117.92 2680.83 95.1 -4462.41 -6664.48 41 52.54 117.92 2680.83 95.1 -4462.41 -6664.48 42 52.18 117.92 2671.31 95.1 -4484.25 -6677.85 43 52.54 118.22 2665.82 95.1 -4485.52 -6684.18 44 52.54 118.22 2665.82 95.1 -4485.52 -6684.18 45 52.22 117.77 2662.76 95.1 -4494.79 -6691.17 46 52.61 118.1 2656.05 95.1 -4481.46 -6677.28 47 52.61 118.1 2656.05 95.1 -4481.46 -6677.28 48 52.49 117.8 2666.39 95.1 -4481.88 -6678.2 49 52.77 117.93 2642.73 95.1 -4492.39 -6675.99 50 52.77 117.93 2642.73 95.1 -4492.39 -6675.99 51 53.09 118.16 2633.75 95.1 -4484.77 -6680.99 52 52.74 117.85 2640.67 95.1 -4471.13 -6670.57 53 52.74 117.85 2640.67 95.1 -4471.13 -6670.57 54 53.12 118.21 2644.07 95.1 -4467.85 -6666.3 55 46.64 116.38 2550.6 99.1 -4289.13 -6440.38 56 46.58 116.95 2552.06 99.1 -4287.21 -6448.97 57 46.58 115.95 2552.06 99.2 -4277.21 -6438.97 58 47.61 116.24 2532.48 99.2 -4269.14 -6429.25 59 47.87 116.17 2537.29 99.2 -4276.33 -6432.13 60 47.6 117.75 2532.94 98.1 -4300.51 -6462.76

计算数据集D中对象两两之间的距离并且确定出每个对象p的k近邻 NNk(p)。我们将k值设定为12。p的k-距离为p和某个对象o之间的距离d(p,o), 这里的o满足:

(1)至少存在k个对象o′∈D\{p},使得d(p,o′)≤d(p,o),并且

(2)至多存在k-1个对象o′∈D\{p},使得d(p,o′)<d(p,o)。

p的k近邻包含所有与p的距离不超过k-距离的对象。

步骤2:火电厂制粉系统通过步骤1得到50个点的NNk(p)。根据p的NNk(p), 将近邻按照距离p的远近进行排序,构成距离近邻序列NNS(p)={p,c1,c2,……,cr}, 这里r=|NNk(p)|,ci∈NNk(p),i=1,2,……,r。步骤2是一个反复计算的过程,NNS(p) 的初始值是{p}。在每次计算时,算法不断从NNk(p)剩下对象中找到距离p最近 的数据,并把找出的对象加到NNS(p)中去。如果找到的对象不只一个,则根据 事先排好的对象顺序加到NNS(p)中去。在每次计算完毕后,更新NNS(p)信息后 再进行下一次计算。当NNk(p)中所有对象都被陆续加入到NNS(p)后,该步骤结 束。

步骤3:火电厂制粉系统根据步骤2所得NNS(p)计算所有数据的最小球。 最小球是包含NNS(p)中所有数据的球中半径最小的那个球。对于2维数据来说, 最小球是一个圆,而3维数据的最小球是球体,3维以上的最小球是超球。

最小球求解问题转变为求下列方程组的最优解问题:

minO,RRsubjectto||ci-O||R,i=1,···,r

O是最小球圆心,R是最小球半径。

火电厂制粉系统计算所有数据的最小球半径如表2所示。

步骤4:火电厂制粉系统得到所有点的最小球的半径之后,计算数据的空间 密度:

spden(p)=|NNS(p)|R(p)

这里|NNS(p)|是NNS(p)的数据个数,R(p)是最小球半径。

火电厂制粉系统计算所有数据的空间密度最小球半径如表2所示。

步骤5:火电厂制粉系统计算出每个数据的空间密度之后,计算每两个数据 的空间密度差。两个数据的空间密度差表示为: Δspden(x,y)=|spden(y)-spden(x)|,因此,Δspden(x,y)=Δspden(y,x)。

步骤6:火电厂制粉系统得到空间密度和密度差之后,计算每个数据的背 离程度。依据空间密度差,NNS(p)中的第i个数据对数据p的密度背离程度 ci为NNS(p)中的第i个数据。

在p的k近邻NNS(p)中,排位越靠前的数据对p的影响越大。那么,NNS(p)中的 数据对p总的密度背离程度表示为:

NDD(p)=Σi=1rΔspden(p,ci)i

这里r=|NNk(p)|。

步骤7:火电厂制粉系统通过下列算式得到p的异常程度:

NDDOF(p)=|NNk(p)|*NDD(p)ΣoNNk(p)NDD(o)

NDDOF值表示数据的异常程度,我们设定NDDOF阈值为1.5,当NDDOF值大于 阈值时被认为是异常数据。火电厂制粉系统计算所有数据的NDDOF值如表2所 示。

表2火电厂制粉系统数据各项指标

表2所示是火电厂制粉系统各个数据的最小球半径、空间密度和异常程度 NDDOF值。前55组数据的最小球半径明显低于最后5组数据的最小球半径。最 后5组数据的近邻恰好一样,因此5组数据的最小球半径和空间密度值都相等; 又因为近邻序列的顺序不一样,因此NDDOF值不相等。对于火电厂制粉系统工 作数据的NDDOF值,最后5组的NDDOF值是大于阈值1.5的,因此认定最后5 组数据是异常数据。基于空间最小球计算密度的火电厂制粉系统的异常数据检 测方法能很好地检测出数据集中的异常数据,清除其中的脏数据,进而提高制 粉系统数据挖掘的准确性。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号