首页> 中国专利> 一种水污染源在线监测数据异常的识别方法

一种水污染源在线监测数据异常的识别方法

摘要

一种水污染源在线监测数据异常的识别方法,步骤A:接入站点监测数据;步骤B:对站点监测数据中异常数据进行初级识别;步骤C:对站点监测数据中异常数据进行二级识别;步骤D:剔除步骤B和步骤C中识别的异常数据,剔除异常数据后的站点监测数据转换成时间序列数据,从时间序列数据分解出周期成份和中位数,根据周期成份和中位数获取残差,对残差进行异常检测,进行三级识别;步骤E:根据步骤D中进行三级识别后的异常数据的波动特征,确认异常原因,并对异常数据进行分类标记;步骤F:根据异常数据的波动特征以及对应的异常原因,进行BP神经网络机器学习分类,对数据异常现象的原因进行智能识别。

著录项

  • 公开/公告号CN112287988A

    专利类型发明专利

  • 公开/公告日2021-01-29

    原文格式PDF

  • 申请/专利号CN202011118055.4

  • 申请日2020-10-19

  • 分类号G06K9/62(20060101);G06N3/08(20060101);G01N33/18(20060101);

  • 代理机构44379 佛山市禾才知识产权代理有限公司;

  • 代理人刘羽波

  • 地址 528000 广东省佛山市南海区桂城街道深海路17号瀚天科技城A区8号楼三楼302单元

  • 入库时间 2023-06-19 09:43:16

说明书

技术领域

本发明涉及水质监测技术领域,尤其涉及一种水污染源在线监测数据异常的识别方法。

背景技术

水污染源在线监测数据为环境管理部门、环境执法部门提供了重要决策依据。但是,由于污水的监测过程往往会经历取样单元、消解单元、检测单元、计量单元等多个环节,任何一个环节的仪器故障,或者工作曲线斜率、工作曲线截距、消解时间、消解温度、消解压力、冷却温度、冷却时间、显色温度、显色时间等监测仪器输入参数的变化,都有可能导致监测数据异常。此外,受监测环境、维护保养、水体中的噪声等其它方面的影响,也会导致监测数据异常波动。

在现场运维过程中,往往需要通过现场检查、实际水样比对试验、标准样品试验等质控手段来识别异常监测数据,这种人工审核和质控的方法通常能有效识别水污染监测中异常数据,但是也面临了一些瓶颈问题:一是人工审核过程繁杂,需要耗费大量人力、物力;二是污染源监测站点多,监测设备质量参差不齐,且每个监测站点的实际运行情况不同,人工审核结果易受个人经验的主观性影响,从而可能对异常数据的判别存在一定的偏差;三是对于仪器故障引起的数据异常波动,人工审核存在运维盲目、识别故障的周期长、识别故障的准确性欠佳、需要现场排查等缺点,导致运维不及时,影响污染源自动监测设备的运行质量和运行效率。

目前,水污染源在线监测数据的智能识别已有初步研究,比如有通过历史数据的波动规律、同行业相似性、以及监测因子之间的逻辑关系等专家知识库判别;也有通过聚类分析、预测模型等方法判别。此外,环保部《水污染源在线监测系统(CODCr、NH3-N等)数据有效性判别技术规范》也制定了数据有效性判别方法,但其核心是数据有效性的判别规范。结合污水的排放特征,智能识别水污染在线监测异常数据,目前尚缺乏对这方面的深入研究。

在污水在线监测的日常运维实践中,通常需要通过人工审核的方式,或者使用检测算法识别异常监测数据。其中,人工通过质控手段识别异常数据是比较常用的方法,这种方法主要依赖运维人员的质控经验。首先筛选出值为零值、负值、急剧升高、急剧下降、连续不变等异常数据,然后通过现场检查、实际水样比对试验、标准样品试验等质控手段来识别,再做判别和处理。而异常检测算法主要是通过统计学方法、模型的预测方法、距离的检测方法、神经网络方法、以及支持向量机方法等来判别。以上两种异常数据识别方法都存在一定的缺陷,人工审核的方式,受运维人员的经验的影响,并且审核效率比较低(比如,急剧升高、急剧下降、连续不变等,对于变化的幅度、以及持续的时长往往依赖运维人员的经验);而常见的异常检测算法,并没有结合污水在线监测异常数据频繁出现的特征,以及污水监测数据传输信号异常极大地拉伸均值和方差的情况,从而导致部分异常点难以捕获,鲁棒性比较差(比如监测数据中出现了传输信号异常引起的亿级以上的极大值,均值和方差被极大的拉升,此时基于3倍标准偏差的拉依达法、t检验法等统计学方法均不再适用)。因此,针对污水的在线监测异常数据,迫切需要一种结合污水的排放特征、更具有鲁棒性的智能识别的方法。

发明内容

本发明的目的在于针对背景技术中的缺陷,提出一种水污染源在线监测数据异常的识别方法,解决背景技术中问题。

为达此目的,本发明采用以下技术方案:

一种水污染源在线监测数据异常的识别方法,包括如下步骤:

步骤A:接入站点监测数据;

步骤B:对站点监测数据中异常数据进行初级识别;

步骤C:对站点监测数据中异常数据进行二级识别;

步骤D:剔除步骤B和步骤C中识别的异常数据,剔除后的站点监测数据转换成时间序列数据,从时间序列数据分解出周期成份和中位数,根据周期成份和中位数获取残差,对残差进行异常检测,进行三级识别;

步骤E:根据步骤D中进行三级识别后的异常数据的波动特征,确认异常原因,并对异常数据进行分类标记;

步骤F:根据异常数据的波动特征以及对应的异常原因,进行BP神经网络机器学习分类,对数据异常现象的原因进行智能识别。

优选的,在步骤B中,初级识别包括检测站点监测数据的完整性,补全站点监测数据中报文数据缺失的时段、并将补全时段的监测值标记为NULL值;

剔除步骤B中识别的异常数据包括剔除缺失值、水流量为零的值、不变值、负值、超量程、氨氮大于总氮的值、低于分位数的极小值、超出分位数的极大值的数据,以及剔除显著异常值。

优选的,在步骤C中,根据监测仪器运行状态和异常报警对异常数据进行二级识别,具体包括:剔除监测仪器处于非正常采样监测时段和异常报警时段的数据。

优选的,在步骤D中,X=S

其中,X表示时间序列数据,X=[X

S

T

R

N表示时间序列样本数;

对时间序列数据进行内循环递归,包括通过内循环更新趋势成分和周期成份,运行更新迭代直至趋势成份

步骤D1:去除趋势,获取去除了趋势成份的剩余值;

其中:

X表示时间序列数据;

步骤D2:周期子系列平滑,将

对每个子序列使用局部多项式回归进行平滑;

将每个子系列平滑结果重新组成当前周期系列,并标记为C

步骤D3:使用低筒滤波器平滑周期子系列,对步骤D2中周期系列C

步骤D4:去除平滑周期子序列的趋势,第k+1次内循环更新的周期成份为

步骤D5:去除周期成份,

步骤D6:趋势平滑,对

优选的,对时间序列数据进行外循环递归,包括计算鲁棒性权重,具体步骤如下:

步骤d1:计算残差,R

其中,R

X表示时间序列数据;

S

T

l表示第1次外循环,即外循环的次数;

步骤d2:分配鲁棒性权重,对每个数据点

其中:

median|R

B表示B函数,如下所示:

其中,

在每一次内循环进行步骤D2-D6中的局部多项式回归时,需要给每个数据点分配鲁棒性权重。

优选的,在步骤D中,R

其中:X表示时间序列数据;

S

T

R

步骤一:使用剩余样本的中位数

对残差R

步骤二:计算检验统计量Ri;

其中:x

MAD=median(|x

其中,median(X)表示剩余样本的中位数;

MAD表示“每个剩余样本与剩余样本的中位数只差的绝对值差异”的中位数;

步骤三:计算临界值λ

其中,n表示剩余样本个数(1,…,n),α表示显著性水平,t

步骤四:比较检验统计量R

有益效果:

本发明结合污水在线监测异常数据频繁、异常率较大的特点,提出更具有鲁棒性的方法进行异常数据检测,克服了因异常数据较多、信号异常的影响,能更准确地捕获异常数据,大幅提高现场运维人员的工作效率。

附图说明

图1是本发明的水污染源在线监测数据异常的智能识别及异常原因分类流程图;

图2为本发明水污染源在线监测数据异常的COD异常识别效果示意图;

图3为本发明水污染源在线监测数据异常的氨氮异常识别效果示意图;

图4为本发明水污染源在线监测数据异常的总氮异常识别效果示意图;

图5为本发明水污染源在线监测数据异常的总磷异常识别效果示意图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

本发明的一种水污染源在线监测数据异常的识别方法,包括如下步骤:

步骤A:接入站点监测数据;

步骤B:对站点监测数据中异常数据进行初级识别;

步骤C:对站点监测数据中异常数据进行二级识别;

步骤D:剔除步骤B和步骤C中识别的异常数据,剔除后的站点监测数据转换成时间序列数据,从时间序列数据分解出周期成份和中位数,根据周期成份和中位数获取残差,对残差进行异常检测,进行三级识别;

步骤E:根据步骤D中进行三级识别后的异常数据的波动特征,确认异常原因,并对异常数据进行分类标记;

步骤F:根据异常数据的波动特征以及对应的异常原因,进行BP神经网络机器学习分类,对数据异常现象的原因进行智能识别。

优选的,在步骤B中,初级识别包括检测站点监测数据的完整性,补全站点监测数据中报文数据缺失的时段、并将补全时段的监测值标记为NULL值;

剔除步骤B中识别的异常数据包括剔除缺失值、水流量为零的值、不变值、负值、超量程、氨氮大于总氮的值、低于分位数的极小值、超出分位数的极大值的数据,以及剔除显著异常值。

优选的,在步骤C中,根据监测仪器运行状态和异常报警对异常数据进行二级识别,具体包括:剔除监测仪器处于非正常采样监测时段和异常报警时段的数据,具体的,将仪器处于停运期间、维护保养、故障维修、校准、标样核查、水样比对等非正常采样监测时段,以及缺试剂告警、缺水样告警、缺空白水告警、加热异常、漏液告警等异常报警时段的数据予以剔除。

优选的,在步骤D中,X=S

其中,X表示时间序列数据,X=[X

S

T

R

N表示时间序列样本数;

对时间序列数据进行内循环和外循环,主要由内部循环和外部循环这两个递归过程组成。内循环迭代更新的趋势和季节性成份,重复这个过程k次。另一方面,外循环通过1次传递将鲁棒性权重赋给每个数据点,从而减少或消除异常对趋势和季节成分的影响。

对时间序列数据进行内循环递归,包括通过内循环更新趋势成分和周期成份,运行更新迭代直至趋势成份

步骤D1:去除趋势,获取去除了趋势成份的剩余值;

其中:

X表示时间序列数据;

步骤D2:周期子系列平滑,将

对每个子序列使用局部多项式回归进行平滑;

将每个子系列平滑结果重新组成当前周期系列,并标记为C

步骤D3:使用低筒滤波器平滑周期子系列,对步骤D2中周期系列C

步骤D4:去除平滑周期子序列的趋势,第k+1次内循环更新的周期成份为

步骤D5:去除周期成份,

步骤D6:趋势平滑,对

优选的,对时间序列数据进行外循环递归,包括计算鲁棒性权重,具体步骤如下:

步骤d1:计算残差,R

其中,R

X表示时间序列数据;

S

T

l表示第1次外循环,即外循环的次数;

步骤d2:分配鲁棒性权重,对每个数据点

其中:

median|R

B表示B函数,如下所示:

其中,

在每一次内循环进行步骤D2-D6中的局部多项式回归时,需要给每个数据点分配鲁棒性权重。

优选的,在步骤D中,R

其中:X表示时间序列数据;

S

T

R

由于污水的监测过程往往会经历取样单元、消解单元、检测单元、计量单元等多个环节,并且污水监测仪器输入参数繁多,任何一个环节的仪器故障、输入参数的变化、监测环境变化、维护保养、水体中的噪声、异常信号等都有可能导致监测数据异常。因此,在污水在线监测实践中,监测数据异常波动比较频繁。但是,在现场监测中,由于污水处理厂的水力停留时间一般比较长,根据污水处理厂的工艺不同,水力停留时间一般为7-40小时,受此影响,污水的水质变化往往比较缓慢,尤其是生活污水。

结合污水在线监测异常数据繁多、污水质变化迟缓的实际情况,为减少异常数据对异常检测的影响,降低异常点误报率,这里用更具有鲁棒性的中位数

步骤一:使用剩余样本的中位数

使用异常检测S-H-ESD方法检测对残差R

对残差R

步骤二:计算检验统计量R

其中:x

MAD=median(|x

其中,median(X)表示剩余样本的中位数;

MAD表示“每个剩余样本与剩余样本的中位数只差的绝对值差异”的中位数;

因污水的异常数据占比较大,更具鲁棒性的中位数

这个过程,我们首先删除使

步骤三:计算临界值λ

其中,n表示剩余样本个数(1,…,n),α表示显著性水平,t

步骤四:比较检验统计量R

重复步骤一至步骤四y次。

进一步的,在步骤E:根据步骤D中进行三级识别后的异常数据的波动特征,确认异常原因,并对异常数据进行分类标记;

步骤F:根据异常数据的波动特征以及对应的异常原因,进行BP神经网络机器学习分类,对数据异常现象的原因进行智能识别,后续随着数据量的增加而自动更新迭代分类模型,不断适应数据的变化,提高异常诊断准确率;

将通过BP神经网络异常数据诊断的结果,推送给现场运维人员,指导现场运维人员识别异常数据产生的原因,以及为运维人员进行仪器故障排查提供支持。

以上结合具体实施例描述了本发明的技术原理。这些描述只是为了解释本发明的原理,而不能以任何方式解释为对本发明保护范围的限制。基于此处的解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式,这些方式都将落入本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号