首页> 中国专利> 空气质量监测数据的异常识别方法及装置、存储介质

空气质量监测数据的异常识别方法及装置、存储介质

摘要

本申请公开了一种空气质量监测数据的异常识别方法及装置、存储介质,该方法包括:确定目标站点以及所述目标站点的参考站点,其中,所述目标站点与所述参考站点位于同一个监测区域中;利用第一历史参考时段内所述参考站点的第一历史空气质量数据以及所述目标站点的第二历史空气质量数据,训练所述目标站点的空气质量预测模型;将待识别时段内所述参考站点的第一空气质量监测数据输入至所述空气质量预测模型中,得到所述待识别时段内所述目标站点的空气质量预测数据;依据所述空气质量预测数据以及所述待识别时段内所述目标站点的第二空气质量监测数据,识别所述目标站点是否存在空气质量监测异常。有助于提高对异常站点的识别效率和准确率。

著录项

  • 公开/公告号CN112801423A

    专利类型发明专利

  • 公开/公告日2021-05-14

    原文格式PDF

  • 申请/专利权人 北京英视睿达科技有限公司;

    申请/专利号CN202110330428.2

  • 发明设计人 田启明;付文祥;郭东宸;

    申请日2021-03-29

  • 分类号G06Q10/04(20120101);G06K9/62(20060101);G06Q50/26(20120101);G06F16/21(20190101);

  • 代理机构11448 北京中强智尚知识产权代理有限公司;

  • 代理人黄耀威

  • 地址 100071 北京市丰台区汽车博物馆西路8号院1号楼6层606

  • 入库时间 2023-06-19 10:58:46

说明书

技术领域

本申请涉及计算机技术领域,尤其是涉及到一种空气质量监测数据的异常识别方法及装置、存储介质。

背景技术

现今环境保护问题日益突出,大范围、准确的常规污染物观测数据是衡量空气质量的重要依据和相关研究的基础。国控站点是国家生态环境部部署的空气质量监测站点,包含国家、省、市、县四个层级,具有监测参数多,精度高等特点。然而,由于仪器故障、恶劣环境、以及监测方法的局限异常观测数据出现不可避免。

在实际应用过程中,通常需要人工对监测数据进行审核和质控,以剔除异常的观测数据。这种方法通常能有效剔除大气污染监测中异常数据。其主要缺点是非常繁杂,需要耗费大量人力和时间,很难快速获得大量的质控数据,制约了数据的快速应用。此外,不同人的质控标准具有一定主观性,难以完全一致,从而可能给质控数据集引入一定的偏差。

因此,有必要建立一种客观的、具有统一标准的质控技术方法,对国控站点数据异常点位进行自动化监管,有效杜绝人为造假情况以及对国控站点运维工作进行高效管理。

发明内容

有鉴于此,本申请提供了一种空气质量监测数据的异常识别方法及装置、存储介质,有助于提高对异常站点的识别效率和准确率,同时节约人力成本。

根据本申请的一个方面,提供了一种空气质量监测数据的异常识别方法,包括:

确定目标站点以及所述目标站点的参考站点,其中,所述目标站点与所述参考站点位于同一个监测区域中;

利用第一历史参考时段内所述参考站点的第一历史空气质量数据以及所述目标站点的第二历史空气质量数据,训练所述目标站点的空气质量预测模型;

将待识别时段内所述参考站点的第一空气质量监测数据输入至所述空气质量预测模型中,得到所述待识别时段内所述目标站点的空气质量预测数据;

依据所述空气质量预测数据以及所述待识别时段内所述目标站点的第二空气质量监测数据,识别所述目标站点是否存在空气质量监测异常。

可选地,所述确定目标站点以及所述目标站点的参考站点,具体包括:

根据所述目标站点,确定与所述目标站点位于同一个监测区域的多个监测站点,其中,所述监测站点包括所述目标站点和其他监测站点;

获取第二历史参考时段内每个监测站点的历史空气质量数据,分别计算所述目标站点与每个所述其他监测站点的空气质量相似度;

根据所述空气质量相似度以及所述目标站点与每个所述其他监测站点之间的距离,在所述其他监测站点中选择N个站点作为所述参考站点,N大于2。

可选地,所述获取第二历史参考时段内每个监测站点的历史空气质量数据之前,所述方法还包括:

若所述监测站点的数量大于N+1,则执行所述获取第二历史参考时段内每个监测站点的历史空气质量数据;

若所述监测站点的数量小于或等于N+1,则将所述监测站点中全部的其他监测站点作为所述参考站点。

可选地,所述根据所述空气质量相似度以及所述目标站点与每个所述其他监测站点之间的距离,在所述其他监测站点中选择N个站点作为所述参考站点,具体包括:

归一化处理所述空气质量相似度C以及所述目标站点与每个所述其他监测站点之间的距离D;

根据所述空气质量相似度C以及所述距离D,分别计算所述目标站点与每个所述其他监测站点之间的匹配度Sim,其中,Sim=0.5*D+0.5*C;

对所述其他监测站点的匹配度按从大至小的顺序排列,选择排序前N个站点作为所述参考站点。

可选地,所述分别计算所述目标站点与每个所述其他监测站点的空气质量相似度,具体包括:

按照多个预设时间粒度,分别对每个所述其他监测站点的历史空气质量数据以及所述目标站点的历史空气质量数据进行聚合处理,并获取任一预设时间粒度下每个所述其他监测站点的第一数据特征向量以及所述目标站点的第二数据特征向量;

根据所述第一数据特征向量以及所述第二数据特征向量,分别计算每个所述其他监测站点与所述目标站点的空气质量相似度。

可选地,所述第二历史参考时段为所述待识别时段之前的预设参考时长范围内的时段,所述预设参考时长大于所述待识别时段的时长,所述待识别时段的时长包括一小时,所述预设参考时长包括一周,所述多个预设时间粒度包括工作日、非工作日、最近24小时、最近72小时中至少一种。

可选地,所述参考站点包括多个;所述利用第一历史参考时段内所述参考站点的第一历史空气质量数据以及所述目标站点的第二历史空气质量数据,训练所述目标站点的空气质量预测模型,具体包括:

分别利用每个所述参考站点的第一历史空气质量数据以及所述第二历史空气质量数据,训练与每个所述参考站点匹配的空气质量预测模型,以使训练后的任一所述空气质量预测模型实现基于相应参考站点的空气质量监测数据对相同时段内所述目标站点空气质量的预测;

相应地,所述将待识别时段内所述参考站点的第一空气质量监测数据输入至所述空气质量预测模型中,得到所述待识别时段内所述目标站点的空气质量预测数据,具体包括:

分别将所述待识别时段内每个参考站点的第一空气质量监测数据输入至相应的空气质量预测模型中,得到所述目标站点的多组空气质量预测数据。

可选地,所述依据所述空气质量预测数据以及所述待识别时段内所述目标站点的第二空气质量监测数据,识别所述目标站点是否存在空气质量监测异常之前,所述方法还包括:

根据所述多组空气质量预测数据,确定所述目标站点的监测数据置信区间;

相应地,所述依据所述空气质量预测数据以及所述待识别时段内所述目标站点的第二空气质量监测数据,识别所述目标站点是否存在空气质量监测异常,具体包括:

若所述目标站点的第二空气质量监测数据处于所述监测数据置信区间范围内,则确定所述目标站点的空气质量监测正常;

若所述目标站点的第二空气质量监测数据处于所述监测数据置信区间范围外,则确定所述目标站点存在空气质量监测异常。

可选地,所述根据所述多组空气质量预测数据,确定所述目标站点的监测数据置信区间,具体包括:

根据所述多组空气质量预测数据,确定所述目标站点的监测数据置信区间以及多个异常等级的异常监测数据区间;

相应地,所述若所述目标站点的第二空气质量监测数据处于所述监测数据置信区间范围外,则确定所述目标站点存在空气质量监测异常,具体包括:

若所述目标站点的第二空气质量监测数据处于任一级异常监测数据区间范围内,则确定所述目标站点存在空气质量监测异常,并确定所述目标站点的异常等级。

可选地,所述根据所述多组空气质量预测数据,确定所述目标站点的监测数据置信区间以及多个异常等级的异常监测数据区间,具体包括:

获取所述多组空气质量预测数据的最大值P

确定所述监测数据置信区间为[P

确定一级异常的异常监测数据区间为[P

确定二级异常的异常监测数据区间为(-∞ , P

根据本申请的另一方面,提供了一种空气质量监测数据的异常识别装置,包括:

站点确定模块,用于确定目标站点以及所述目标站点的参考站点,其中,所述目标站点与所述参考站点位于同一个监测区域中;

模型训练模块,用于利用第一历史参考时段内所述参考站点的第一历史空气质量数据以及所述目标站点的第二历史空气质量数据,训练所述目标站点的空气质量预测模型;

数据预测模块,用于将待识别时段内所述参考站点的第一空气质量监测数据输入至所述空气质量预测模型中,得到所述待识别时段内所述目标站点的空气质量预测数据;

异常识别模块,用于依据所述空气质量预测数据以及所述待识别时段内所述目标站点的第二空气质量监测数据,识别所述目标站点是否存在空气质量监测异常。

可选地,所述站点确定模块,具体包括:

监测站点选择单元,用于根据所述目标站点,确定与所述目标站点位于同一个监测区域的多个监测站点,其中,所述监测站点包括所述目标站点和其他监测站点;

相似度计算单元,用于获取第二历史参考时段内每个监测站点的历史空气质量数据,分别计算所述目标站点与每个所述其他监测站点的空气质量相似度;

第一站点选择单元,用于根据所述空气质量相似度以及所述目标站点与每个所述其他监测站点之间的距离,在所述其他监测站点中选择N个站点作为所述参考站点,N大于2。

可选地,相似度计算单元,具体用于若所述监测站点的数量大于N+1,则执行所述获取第二历史参考时段内每个监测站点的历史空气质量数据;

所述站点确定模块,还包括:第二站点选择单元,用于若所述监测站点的数量小于或等于N+1,则将所述监测站点中全部的其他监测站点作为所述参考站点。

可选地,所述第一站点选择单元,具体用于:归一化处理所述空气质量相似度C以及所述目标站点与每个所述其他监测站点之间的距离D;根据所述空气质量相似度C以及所述距离D,分别计算所述目标站点与每个所述其他监测站点之间的匹配度Sim,其中,Sim=0.5*D+0.5*C;对所述其他监测站点的匹配度按从大至小的顺序排列,选择排序前N个站点作为所述参考站点。

可选地,所述相似度计算单元,具体用于:按照多个预设时间粒度,分别对每个所述其他监测站点的历史空气质量数据以及所述目标站点的历史空气质量数据进行聚合处理,并获取任一预设时间粒度下每个所述其他监测站点的第一数据特征向量以及所述目标站点的第二数据特征向量;根据所述第一数据特征向量以及所述第二数据特征向量,分别计算每个所述其他监测站点与所述目标站点的空气质量相似度。

可选地,所述第二历史参考时段为所述待识别时段之前的预设参考时长范围内的时段,所述预设参考时长大于所述待识别时段的时长,所述待识别时段的时长包括一小时,所述预设参考时长包括一周,所述多个预设时间粒度包括工作日、非工作日、最近24小时、最近72小时中至少一种。

可选地,所述参考站点包括多个;

所述模型训练模块,具体用于:分别利用每个所述参考站点的第一历史空气质量数据以及所述第二历史空气质量数据,训练与每个所述参考站点匹配的空气质量预测模型,以使训练后的任一所述空气质量预测模型实现基于相应参考站点的空气质量监测数据对相同时段内所述目标站点空气质量的预测;

相应地,所述数据预测模块,具体用于:分别将所述待识别时段内每个参考站点的第一空气质量监测数据输入至相应的空气质量预测模型中,得到所述目标站点的多组空气质量预测数据。

可选地,所述装置还包括:

区间确定模块,用于所述依据所述空气质量预测数据以及所述待识别时段内所述目标站点的第二空气质量监测数据,识别所述目标站点是否存在空气质量监测异常之前,根据所述多组空气质量预测数据,确定所述目标站点的监测数据置信区间;

相应地,所述异常识别模块,具体包括:

正常站点识别单元,用于若所述目标站点的第二空气质量监测数据处于所述监测数据置信区间范围内,则确定所述目标站点的空气质量监测正常;

异常站点识别单元,用于若所述目标站点的第二空气质量监测数据处于所述监测数据置信区间范围外,则确定所述目标站点存在空气质量监测异常。

可选地,所述区间确定模块,具体用于:根据所述多组空气质量预测数据,确定所述目标站点的监测数据置信区间以及多个异常等级的异常监测数据区间;

相应地,所述异常站点识别单元,具体用于:若所述目标站点的第二空气质量监测数据处于任一级异常监测数据区间范围内,则确定所述目标站点存在空气质量监测异常,并确定所述目标站点的异常等级。

可选地,所述区间确定模块,具体用于:获取所述多组空气质量预测数据的最大值P

依据本申请又一个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述空气质量监测数据的异常识别方法。

依据本申请再一个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述空气质量监测数据的异常识别方法。

借由上述技术方案,本申请提供的一种空气质量监测数据的异常识别方法及装置、存储介质,针对需要进行异常监测的目标站点,在目标站点所处的监测区域中以空气质量相似度以及空间距离为依据筛选出匹配的参考站点,从而利用每个参考站点以及目标站点的历史空气质量数据训练对应的模型,通过训练后的模型对目标站点的空气质量数据进行预测,进而依据空气质量预测数据识别目标站点的监测数据是否异常。本申请相比于现有技术中人工监测识别异常站点的方式,可以利用与目标站点处于相同监测区域的参考站点的历史监测数据建立模型,从而通过模型进行目标站点的空气质量数据预测,为目标站点异常识别提供数据支撑,以便依据空气质量预测数据对目标站点的监测数据进行智能化的异常识别,有助于更准确地找出数据异常明显的站点,更好地监测污染情况,治理大气环境。

上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1示出了本申请实施例提供的一种空气质量监测数据的异常识别方法的流程示意图;

图2示出了本申请实施例提供的一种空气质量监测数据的异常识别装置的结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

在本实施例中提供了一种空气质量监测数据的异常识别方法,如图1所示,该方法包括:

步骤101,确定目标站点以及所述目标站点的参考站点,其中,所述目标站点与所述参考站点位于同一个监测区域中;

本申请实施例用于对任意监测区域中的目标站点的监测数据进行异常识别,监测区域中包括多个监测站点,目标站点以及目标站点对应的参考站点包含在多个监测站点中,监测区域中的每个监测站点各自对相应范围内的空气质量参数进行监测,空气质量参数具体可以包括PM

在本申请实施例中,为确定参考站点,可选地,步骤101具体可以包括:

步骤101-1,根据所述目标站点,确定与所述目标站点位于同一个监测区域的多个监测站点,其中,所述监测站点包括所述目标站点和其他监测站点;

步骤101-2,若所述监测站点的数量大于N+1,则获取第二历史参考时段内每个监测站点的历史空气质量数据,分别计算所述目标站点与每个所述其他监测站点的空气质量相似度;根据所述空气质量相似度以及所述目标站点与每个所述其他监测站点之间的距离,在所述其他监测站点中选择N个站点作为所述参考站点,N大于2;

步骤101-3,若所述监测站点的数量小于或等于N+1,则将所述监测站点中全部的其他监测站点作为所述参考站点。

在上述实施例中,目标站点为需要进行异常监测的站点,选定目标站点之后,可以先确定目标站点所在的监测区域,在监测区域包含的监测站点中选择参考站点。在具体应用场景中,若该监测区域中包含的监测站点的数量小于或等于N+1,那么直接将监测区域中除目标站点外的其他全部监测站点作为目标站点的参考站点,以N=5为例,如果监测区域中包含6个或小于6个监测站点,那么目标站点外的其他站点都作为参考站点。而若监测区域中包含的监测站点的数量大于N,那么应在除目标站点外的其他监测站点中筛选5个参考站点,其中,参考站点为与目标站点匹配度较高的站点,匹配度高低可以从两个方面来考量,第一是空气质量监测数据的相似度大小,第二是两个站点的空间距离大小,具体来说,第二历史参考时段可以为最近一周时段,取监测区域内每个监测站点最近一周的历史空气质量数据,并分别计算每个其他监测站点与目标站点的空气质量相似度,进而结合空气质量相似度以及每个其他监测站点与目标站点的空间距离选择参考站点。

可选地,步骤101-2中“分别计算所述目标站点与每个所述其他监测站点的空气质量相似度”,具体可以包括:按照多个预设时间粒度,分别对每个所述其他监测站点的历史空气质量数据以及所述目标站点的历史空气质量数据进行聚合处理,并获取任一预设时间粒度下每个所述其他监测站点的第一数据特征向量以及所述目标站点的第二数据特征向量;根据所述第一数据特征向量以及所述第二数据特征向量,分别计算每个所述其他监测站点与所述目标站点的空气质量相似度。

其中,所述第二历史参考时段为所述待识别时段之前的预设参考时长范围内的时段,所述预设参考时长大于所述待识别时段的时长,所述待识别时段的时长包括一小时,所述预设参考时长包括一周,所述多个预设时间粒度包括工作日、非工作日、最近24小时、最近72小时中至少一种。

在上述实施例中,以待识别时段为当前小时、预设参考时长为一周为例,第二历史参考时段为最近一周,在具体应用场景中,取该监测区域中全部监测站点最近一周的每小时污染物浓度数据(即历史空气质量数据),将其按不同时间粒度聚合处理为工作日二十四小时浓度、非工作日二十四小时浓度,最近二十四小时浓度等数据特征向量,为区分目标站点和其他站点的数据特征向量,本申请实施例中其他监测站点对应第一数据特征向量,目标站点对应第二数据特征向量,进而分别计算每个其他监测站点与目标站点之间的空气质量相似度。

可选地,步骤101-2中“在所述其他监测站点中选择N个站点作为所述参考站点”具体可以包括:归一化处理所述空气质量相似度C以及所述目标站点与每个所述其他监测站点之间的距离D;根据所述空气质量相似度C以及所述距离D,分别计算所述目标站点与每个所述其他监测站点之间的匹配度Sim,其中,Sim=0.5*D+0.5*C;对所述其他监测站点的匹配度按从大至小的顺序排列,选择排序前N个站点作为所述参考站点。

在上述实施例中,对目标站点与每个其他监测站点之间的空气质量相似度C以及距离D分别进行归一化处理,然后分别计算每个其他监测站点与目标站点的匹配度Sim,其中匹配度Sim通过对空气质量相似度C与距离D进行加权求和计算确定,权重可以均为0.5,也可以根据实际情况设置其他权重,在此不做限定,计算匹配度Sim后,在其他监测站点中选择N个匹配度较高的站点作为参考站点。

步骤102,利用第一历史参考时段内所述参考站点的第一历史空气质量数据以及所述目标站点的第二历史空气质量数据,训练所述目标站点的空气质量预测模型;

在本申请实施例中,确定参考站点之后,可以基于第一历史参考时段内参考站点对应的第一历史空气质量数据以及目标站点对应的第二历史空气质量数据进行模型训练,第一历史参考时段与本申请实施例中的第二历史参考时段可以相同也可以不同,以第一历史参考时段与第二历史参考时段相同为例,取目标站点以及参考站点最近一周的空气质量监测数据,以任一参考站点的第一历史空气质量数据作为输入,目标站点的第二历史空气质量数据作为输出,进行模型训练,具体可以建立线性回归模型进行训练。另外,需要说明的是,还可以针对不同种类的空气质量参数分别建立模型,例如针对参考站点A、以及目标站点的PM

步骤103,将待识别时段内所述参考站点的第一空气质量监测数据输入至所述空气质量预测模型中,得到所述待识别时段内所述目标站点的空气质量预测数据;

步骤104,依据所述空气质量预测数据以及所述待识别时段内所述目标站点的第二空气质量监测数据,识别所述目标站点是否存在空气质量监测异常。

在本申请实施例中,模型训练成功之后,利用训练好的空气质量预测模型对目标站点的空气质量数据进行预测,具体可以将待识别时段内参考站点的空气质量监测数据即第一空气质量监测数据输入至模型中,得到对目标站点的空气质量预测数据,从而以空气质量预测数据为依据判断目标站点采集的空气质量监测数据(即第二空气质量监测数据)是否异常。

本申请实施例中,可选地,步骤102具体可以包括:分别利用每个所述参考站点的第一历史空气质量数据以及所述第二历史空气质量数据,训练与每个所述参考站点匹配的空气质量预测模型,以使训练后的任一所述空气质量预测模型实现基于相应参考站点的空气质量监测数据对相同时段内所述目标站点空气质量的预测;

相应地,步骤103,具体可以包括:分别将所述待识别时段内每个参考站点的第一空气质量监测数据输入至相应的空气质量预测模型中,得到所述目标站点的多组空气质量预测数据。

在上述实施例中,进行模型训练时分别针对目标站点对应的每个参考站点进行训练,以5个参考站点为例,对应参考站点A来说,利用参考站点A最近一周空气质量监测数据作为模型输入,目标站点最近一周空气质量监测数据作为模型输出,进行模型训练,训练后的模型可以利用参考站点A某个时段的空气质量监测数据对同一时段的目标站点的空气质量数据进行预测,多个模型则对应有多组空气质量预测数据。

本申请实施例中,根据多组空气质量预测数据可以确定空气质量监测数据的合理范围,从而进行异常数据、异常站点的识别,可选地,步骤104之前还可以包括:根据所述多组空气质量预测数据,确定所述目标站点的监测数据置信区间。

相应地,步骤104可以包括:

步骤104-1,若所述目标站点的第二空气质量监测数据处于所述监测数据置信区间范围内,则确定所述目标站点的空气质量监测正常;

步骤104-2,若所述目标站点的第二空气质量监测数据处于所述监测数据置信区间范围外,则确定所述目标站点存在空气质量监测异常。

在上述实施例中,可以基于多组空气质量预测数据确定目标站点的检测数据置信区间,从而针对目标站点进行异常数据识别时,只要目标站点对应的第二空气质量监测数据处于这个置信区间内就可以认为数据正常、站点正常,否则可能存在异常情况,另外,异常情况还可以分为例如低度不可信、高度不可信等多个异常等级,每个异常等级有特定的异常监测数据区间,目标站点的监测数据落入哪个区间内就认为目标站点、目标站点的监测数据属于哪个异常等级。

可选地,根据所述多组空气质量预测数据,确定所述目标站点的监测数据置信区间以及多个异常等级的异常监测数据区间。其中,获取所述多组空气质量预测数据的最大值P

相应地,步骤104-2具体可以包括:若所述目标站点的第二空气质量监测数据处于任一级异常监测数据区间范围内,则确定所述目标站点存在空气质量监测异常,并确定所述目标站点的异常等级。

在上述实施例中,异常等级分为一级和二级,一级属于低度不可信,二级属于高度不可信,利用多个模型得到目标站点的多组空气质量预测数据之后,预测值最大、最小值加减一倍标准差为监测数据置信区间上下限。对目标站点而言,按如下标准确定目标站点、目标站点监测数据的可信度,例如若目标站点对应的当前小时污染物浓度(即第二空气质量监测数据)处于上述监测数据置信区间内时,认为该子站当前小时污染物浓度可信,若目标站点对应的当前小时污染物浓度在预测置信区间外且在预测值最大、最小值加减三倍标准差区间内时,认为该子站当前小时污染物浓度低度不可信、否则,认为该子站该小时污染物浓度高度不可信。

通过应用本实施例的技术方案,针对需要进行异常监测的目标站点,在目标站点所处的监测区域中以空气质量相似度以及空间距离为依据筛选出匹配的参考站点,从而利用每个参考站点以及目标站点的历史空气质量数据训练对应的模型,通过训练后的模型对目标站点的空气质量数据进行预测,进而依据空气质量预测数据识别目标站点的监测数据是否异常。本申请实施例相比于现有技术中人工监测识别异常站点的方式,可以利用与目标站点处于相同监测区域的参考站点的历史监测数据建立模型,从而通过模型进行目标站点的空气质量数据预测,为目标站点异常识别提供数据支撑,以便依据空气质量预测数据对目标站点的监测数据进行智能化的异常识别,有助于更准确地找出数据异常明显的站点,更好地监测污染情况,治理大气环境,并且节约人力成本、提高识别效率。

进一步的,作为图1方法的具体实现,本申请实施例提供了一种空气质量监测数据的异常识别装置,如图2所示,该装置包括:

站点确定模块,用于确定目标站点以及所述目标站点的参考站点,其中,所述目标站点与所述参考站点位于同一个监测区域中;

模型训练模块,用于利用第一历史参考时段内所述参考站点的第一历史空气质量数据以及所述目标站点的第二历史空气质量数据,训练所述目标站点的空气质量预测模型;

数据预测模块,用于将待识别时段内所述参考站点的第一空气质量监测数据输入至所述空气质量预测模型中,得到所述待识别时段内所述目标站点的空气质量预测数据;

异常识别模块,用于依据所述空气质量预测数据以及所述待识别时段内所述目标站点的第二空气质量监测数据,识别所述目标站点是否存在空气质量监测异常。

可选地,所述站点确定模块,具体包括:

监测站点选择单元,用于根据所述目标站点,确定与所述目标站点位于同一个监测区域的多个监测站点,其中,所述监测站点包括所述目标站点和其他监测站点;

相似度计算单元,用于获取第二历史参考时段内每个监测站点的历史空气质量数据,分别计算所述目标站点与每个所述其他监测站点的空气质量相似度;

第一站点选择单元,用于根据所述空气质量相似度以及所述目标站点与每个所述其他监测站点之间的距离,在所述其他监测站点中选择N个站点作为所述参考站点,N大于2。

可选地,相似度计算单元,具体用于若所述监测站点的数量大于N+1,则执行所述获取第二历史参考时段内每个监测站点的历史空气质量数据;

所述站点确定模块,还包括:第二站点选择单元,用于若所述监测站点的数量小于或等于N+1,则将所述监测站点中全部的其他监测站点作为所述参考站点。

可选地,所述第一站点选择单元,具体用于:归一化处理所述空气质量相似度C以及所述目标站点与每个所述其他监测站点之间的距离D;根据所述空气质量相似度C以及所述距离D,分别计算所述目标站点与每个所述其他监测站点之间的匹配度Sim,其中,Sim=0.5*D+0.5*C;对所述其他监测站点的匹配度按从大至小的顺序排列,选择排序前N个站点作为所述参考站点。

可选地,所述相似度计算单元,具体用于:按照多个预设时间粒度,分别对每个所述其他监测站点的历史空气质量数据以及所述目标站点的历史空气质量数据进行聚合处理,并获取任一预设时间粒度下每个所述其他监测站点的第一数据特征向量以及所述目标站点的第二数据特征向量;根据所述第一数据特征向量以及所述第二数据特征向量,分别计算每个所述其他监测站点与所述目标站点的空气质量相似度。

可选地,所述第二历史参考时段为所述待识别时段之前的预设参考时长范围内的时段,所述预设参考时长大于所述待识别时段的时长,所述待识别时段的时长包括一小时,所述预设参考时长包括一周,所述多个预设时间粒度包括工作日、非工作日、最近24小时、最近72小时中至少一种。

可选地,所述参考站点包括多个;

所述模型训练模块,具体用于:分别利用每个所述参考站点的第一历史空气质量数据以及所述第二历史空气质量数据,训练与每个所述参考站点匹配的空气质量预测模型,以使训练后的任一所述空气质量预测模型实现基于相应参考站点的空气质量监测数据对相同时段内所述目标站点空气质量的预测;

相应地,所述数据预测模块,具体用于:分别将所述待识别时段内每个参考站点的第一空气质量监测数据输入至相应的空气质量预测模型中,得到所述目标站点的多组空气质量预测数据。

可选地,所述装置还包括:

区间确定模块,用于所述依据所述空气质量预测数据以及所述待识别时段内所述目标站点的第二空气质量监测数据,识别所述目标站点是否存在空气质量监测异常之前,根据所述多组空气质量预测数据,确定所述目标站点的监测数据置信区间;

相应地,所述异常识别模块,具体包括:

正常站点识别单元,用于若所述目标站点的第二空气质量监测数据处于所述监测数据置信区间范围内,则确定所述目标站点的空气质量监测正常;

异常站点识别单元,用于若所述目标站点的第二空气质量监测数据处于所述监测数据置信区间范围外,则确定所述目标站点存在空气质量监测异常。

可选地,所述区间确定模块,具体用于:根据所述多组空气质量预测数据,确定所述目标站点的监测数据置信区间以及多个异常等级的异常监测数据区间;

相应地,所述异常站点识别单元,具体用于:若所述目标站点的第二空气质量监测数据处于任一级异常监测数据区间范围内,则确定所述目标站点存在空气质量监测异常,并确定所述目标站点的异常等级。

可选地,所述区间确定模块,具体用于:获取所述多组空气质量预测数据的最大值P

需要说明的是,本申请实施例提供的一种空气质量监测数据的异常识别装置所涉及各功能单元的其他相应描述,可以参考图1至图2方法中的对应描述,在此不再赘述。

基于上述如图1所示方法,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述如图1所示的空气质量监测数据的异常识别方法。

基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。

基于上述如图1所示的方法,以及图2所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该计算机设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1所示的空气质量监测数据的异常识别方法。

可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该计算机设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理和保存计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现针对需要进行异常监测的目标站点,在目标站点所处的监测区域中以空气质量相似度以及空间距离为依据筛选出匹配的参考站点,从而利用每个参考站点以及目标站点的历史空气质量数据训练对应的模型,通过训练后的模型对目标站点的空气质量数据进行预测,进而依据空气质量预测数据识别目标站点的监测数据是否异常。本申请实施例相比于现有技术中人工监测识别异常站点的方式,可以利用与目标站点处于相同监测区域的参考站点的历史监测数据建立模型,从而通过模型进行目标站点的空气质量数据预测,为目标站点异常识别提供数据支撑,以便依据空气质量预测数据对目标站点的监测数据进行智能化的异常识别,有助于更准确地找出数据异常明显的站点,更好地监测污染情况,治理大气环境。

本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号