首页> 中国专利> 污染天气的分型方法、装置、电子设备及存储介质

污染天气的分型方法、装置、电子设备及存储介质

摘要

本发明公开了污染天气的分型方法、装置、电子设备及计算机可读存储介质,该方法包括:根据历史污染数据获取污染案例;获取与污染案例对应的污染气象数据;对污染气象数据进行预处理得到待聚类数据;将待聚类数据依据AP聚类算法建立分型模型,并迭代更新分型模型得到最终分型模型;根据最终分型模型对污染天气进行分型。该方法依据污染案例获取污染气象数据,提高了污染案例与污染天气的分型的关联度,有利于后续依据污染天气分型进行污染预测和治理。依据AP聚类算法建立分型模型不需要指定聚类个数,有利于提高精度,能够得到确切存在的聚类中心,便于后续确定相关的污染情况。

著录项

  • 公开/公告号CN112990355A

    专利类型发明专利

  • 公开/公告日2021-06-18

    原文格式PDF

  • 申请/专利权人 中科三清科技有限公司;

    申请/专利号CN202110407405.7

  • 申请日2021-04-15

  • 分类号G06K9/62(20060101);G06Q50/26(20120101);G06Q10/04(20120101);

  • 代理机构11711 北京北汇律师事务所;

  • 代理人李卓

  • 地址 100193 北京市海淀区东北旺西路8号院36号楼5层523室

  • 入库时间 2023-06-19 11:29:13

说明书

技术领域

本发明涉及天气分型技术领域,具体涉及一种污染天气的分型方法、装置、电子设备及计算机可读存储介质。

背景技术

天气分型是通过历史天气图的分析,研究总结出各种天气所对应的天气系统形势分布特征,在预报天气时作为参考。过去天气分型的过程都是人工完成,其中难以避免出现各种人为造成的误差,影响天气分型效果。因此,使用客观天气分型方法,能够避免分析存在的较大个体差异。

目前使用的客观天气分型方法主要有T-mode斜交旋转分解方法(PCT)、客观环流分型法(Lamb-Jenkison)和K均值聚类法(K-means)以及自组织映射神经网络算法(self-organizing map,SOM)等。例如,许建明等(2016)采用T-mode方法将上海秋冬季污染天气形势客观分型,得到易污染的4种天气环流类型。杨旭等(2017)采用T-mode方法对京津冀地区冬半年的污染天气进行分型研究,总结出9种天气类型。陈龙等(2016)利用Lamb-Jenkison法,将影响武汉地区空气污染的地面形势分为6种类型。在对天气形势进行分型之前,先要确定描述天气形势的主要气象要素。现有技术中,选择描述天气形势的气象要素往往单一(例如仅选择近地面风场或压强场数据),单一的气象要素数据难以全面描述天气形势。考虑使用不同高度的多种气象要素多维度描述天气形势的研究较少。空气污染的因素较多,除了人为污染物的排放和区域传输,还受天气形势的驱动,尤其是区域污染与天气形势密切相关。现有的天气分型方法,应用在精细化的大气污染治理工作中有明显的局限性。

因此,设计一种客观、精细化、精度高、实用性强的污染天气的分型方法成为了本领域的关键性问题。

发明内容

有鉴于此,本发明实施例提供了污染天气的分型方法、装置、电子设备及计算机可读存储介质,以解决现有技术中天气分型与污染物的关联度较低、主观性较强、作为分型依据的参数的种类单一的问题。

为此,本发明实施例提供了如下技术方案:

本发明第一方面,提供了污染天气的分型方法,包括:

根据历史污染数据获取污染案例;

获取与所述污染案例对应的污染气象数据;

对所述污染气象数据进行预处理得到待聚类数据;

将待聚类数据依据AP聚类算法建立分型模型,并迭代更新所述分型模型得到最终分型模型;

根据所述最终分型模型对污染天气进行分型。

进一步地,根据历史污染数据获取污染案例包括:

根据地面站点的污染物数据计算所述地面站点的空气质量指数;

根据所述空气质量指数确定地面站点的污染等级;

根据所述污染等级确定污染区域,并将面积超过设定面积的所述污染区域作为指定污染区域;

获取与所述指定污染区域对应的污染持续时间;

根据所述指定污染区域和所述污染持续时间确定所述污染案例。

进一步地,所述污染气象数据为时间、空间与气象要素关联形成的多维数据。

进一步地,将所述待聚类数据依据AP聚类算法建立分型模型,并迭代更新所述分型模型得到最终分型模型包括:

根据所述待聚类数据之间的相似度得到吸引度矩阵;

根据所述吸引度矩阵得到归属度矩阵;

对所述吸引度矩阵和所述归属度矩阵进行衰减;

重复上述步骤直至所述吸引度矩阵和所述归属度矩阵稳定或达到最大迭代次数,得到最终分型模型。

进一步地,根据所述最终分型模型对污染天气进行分型包括:

获取所述最终分型模型中的多个聚类中心;

每个所述聚类中心对应设置一种天气型。

进一步地,对所述污染气象数据进行预处理得到待聚类数据包括:

对所述污染气象数据进行滤波;

将滤波后的所述污染气象数据按照季节分为四类。

本发明第二方面,提供了一种污染天气的分型装置,包括:

第一获取模块,用于根据历史污染数据获取污染案例;

第二获取模块,用于获取与所述污染案例对应的污染气象数据;

预处理模块,用于对所述污染气象数据进行预处理得到待聚类数据;

第一分型模块,用于根据所述待聚类数据建立分型模型,并迭代更新所述分型模型得到最终分型模型;

第二分型模块,用于根据所述最终分型模型对污染天气进行分型。

进一步地,所述第一获取模块包括:

第一获取单元,用于根据地面站点的污染物数据计算所述地面站点的空气质量指数;

第二获取单元,用于根据所述空气质量指数确定地面站点的污染等级;

筛选单元,用于根据所述污染等级确定污染区域,并将面积超过设定面积的所述污染区域作为指定污染区域;

第三获取单元,用于获取与所述指定污染区域对应的污染持续时间;

第四获取单元,用于根据所述指定污染区域和所述污染持续时间确定所述污染案例。

本发明第三方面,提供了一种电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行本发明第一方面中任一所述的污染天气的分型方法。

本发明第四方面,提供了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现本发明第一方面中任一所述的污染天气的分型方法。

本发明实施例技术方案,具有如下优点:

(1)本发明实施例提供的污染天气的分型方法依据污染案例获取污染气象数据,提高了污染案例与污染天气的分型的关联度,有利于后续依据污染天气分型进行污染预测和治理。依据AP聚类算法建立分型模型不需要指定聚类个数,有利于提高精度,能够得到确切存在的聚类中心,便于后续确定相关的污染情况。

(2)本发明实施例根据面积超过设定面积的污染区域确定污染案例能够筛选出受天气形势影响较大的污染案例,避免与天气形势关联度较低的点污染源影响后续污染天气的分型。

(3)本发明实施例提供的污染天气的分型方法依据待聚类数据之间的相似度建立吸引度矩阵和归属度矩阵进行迭代得到最终分型模型,能够适应多维数据的聚类,得到的聚类中心为真实存在的点,进而有对应的污染案例,便于后续依据污染天气分型进行污染预测和治理。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是现有的天气分型方法的流程图;

图2是根据本发明实施例的污染天气的分型方法的流程图;

图3是根据本发明实施例的污染天气的分型装置的结构框图;

图4是本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

在本申请的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

在本申请中,“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本申请,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本申请。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本申请的描述变得晦涩。因此,本申请并非旨在限于所示的实施例,而是与符合本申请所公开的原理和特征的最广范围相一致。

如图1所示,现有天气分型方法通常包括下述步骤:

S101:收集历史数据:从历史气象数据中选取分型区域的分型因子(即描述天气形式的气象要素),作为待聚类数据;

S102:数据预处理:对待聚类数据进行滤波;

S103:针对滤波后的待聚类数据进行聚类,建立天气分型模型;

S104:迭代更新分型模型,直至各簇中的聚类中心不再变化为止,得到更新完成的分型模型。

S105:利用更新完成的分型模型对预报天气形势进行分型,得到分析结果。

现有的天气分型方法存在如下问题:

在天气分型之前,先要确定描述天气形势的气象要素。但目前研究选择气象要素往往单一(例如仅选择近地面风场或压强场数据),并不能全面描述多维度天气形势,未考虑到多种气象要素同时对污染天气的影响,限制了污染天气分型的准确性。

针对现有技术中的上述技术问题,本发明实施例提供了污染天气的分型方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

在本实施例中提供了污染天气的分型方法,可用于环境污染预测系统等,图1是根据本发明实施例的污染天气的分型方法的流程图。如图1所示,本发明提供了一种污染天气的分型方法,包括如下步骤:

S201:根据历史污染数据获取污染案例。历史污染数据为污染物浓度数据,例如,地面臭氧,颗粒物,一氧化碳,二氧化硫,二氧化氮。污染案例为多个,每个污染案例对应一个污染过程。

S202:获取与污染案例对应的污染气象数据。污染气象数据与污染案例一一对应,每个污染气象数据反映了一个污染过程的气象情况。污染气象数据包括用于描述天气形势的多种气象要素,例如,海平面温度,500hpa温度,海平面气压,500hpa位势高度数据等。

S203:对污染气象数据进行预处理得到待聚类数据。预处理包括对污染气象数据进行滤波,将滤波后的污染气象数据按照季节分为四类,分别对每一类进行聚类,最终得到四个分型模型。滤波可选包括平滑处理。

S204:将待聚类数据依据Affinity Propagation(简称为AP)聚类算法建立分型模型,并迭代更新分型模型得到最终分型模型。迭代次数达到最大迭代次数或矩阵稳定,停止迭代得到最终分型模型。最大迭代次数可根据实际需求设置,例如最大迭代次数为5,则没有达到矩阵稳定的情况下,在迭代5次后停止迭代得到最终分型模型。聚类中心不变时矩阵稳定。将AP聚类算法作为分型算法,建立分型模型。AP聚类算法适合高维、多类数据快速聚类,相比传统的聚类算法,从聚类性能和效率方面都有大幅度的提升。

S205:根据最终分型模型对污染天气进行分型。最终分型模型包括多个簇,每个簇包括一个聚类中心,获取最终分型模型中的多个聚类中心;每个聚类中心对应设置一种天气型。获取每个天气型对应的污染气象数据作为第一污染气象数据,获取待分型的污染天气对应的污染气象数据作为第二污染气象数据,获取与第二污染气象数据最接近的第一污染气象数据作为目标污染气象数据,目标污染气象数据对应的天气型为待分型的污染天气的天气型。获取与第二污染气象数据最接近的第一污染气象数据作为目标污染气象数据包括,计算第二污染数据与每个第一污染数据的相似度,最高的相似度对应的第一污染数据为目标污染气象数据。

与现有技术相比,本发明实施例提供的污染天气的分型方法依据污染案例获取污染气象数据,提高了污染案例与污染天气的分型的关联度,有利于后续依据污染天气分型进行污染预测和治理。依据AP聚类算法建立分型模型的优点包括:1)AP聚类不需要指定聚类个数,优于K-mean聚类和SOM聚类。2)AP聚类的聚类中心examplar是原始数据中确切存在的一个数据点,优于其他聚类方法。3)不需要进行随机选取初值。4)AP聚类比其他方法的误差平方和都要低。5)AP通过输入相似度矩阵来启动算法。

在一个具体的实施方式中,根据地面站点的污染物数据计算地面站点的空气质量指数(Air Quality Inde,简称为AQI)。根据空气质量指数确定地面站点的污染等级。空气质量指数的数值越高,污染等级越高。

AQI的计算公式为:

其中,I为空气质量指数,即AQI;C为污染物浓度;C

根据污染等级确定污染区域,并将面积超过设定面积的污染区域作为指定污染区域。设定面积可选根据每个地面站点的覆盖面积设置,例如,设定面积为地面站点的平均覆盖面积的3-5倍。设定面积可选根据实际需求设置,例如设定面积为20000平方公里-50000平方公里。可选将连续且污染等级相同或超过设定等级的污染站点的覆盖范围划分为一个污染区域。例如,筛选出污染等级超过设定等级的地面站点作为污染站点,获取污染站点的覆盖范围,将连续的覆盖范围划分为一个污染区域。站点的覆盖范围为城市时,将污染等级超过设定等级的邻接的城市划分为一个污染区域。将面积超过设定面积的污染区域作为指定污染区域。获取与指定污染区域对应的污染持续时间。指定污染区域的污染等级超过设定等级的持续时间为污染持续时间。根据指定污染区域和污染持续时间确定污染案例。污染案例包括指定污染区域、污染持续时间、污染等级和空气质量指数。

与现有技术相比,本发明实施例根据面积超过设定面积的污染区域确定污染案例能够筛选出受天气形势影响较大的污染案例,避免与天气形势关联度较低的点污染源影响后续污染天气的分型。

在一个具体的实施方式中,污染气象数据为时间、空间与气象要素关联形成的多维数据。时间为持续时间中的多个时间点,空间包括由高度、经度和纬度确定的污染区域中的多个点,气象要素包括温度、湿度、压强、风向和风速。

与现有技术相比,本发明通过多维的数据对污染天气进行分型,能够全面地描述天气形势,得到客观、精确的分型结果,尤其适用于后续针对污染天气的预测和治理。

在一个具体的实施方式中,将全部待聚类数据看做网络的节点,然后通过网络中各条边的消息传递计算出各待聚类数据的聚类中心。聚类过程中,共有两种消息在各节点间传递,分别是吸引度(responsibility)和归属度(availability)。AP算法通过迭代过程不断更新每一个节点的吸引度和归属度值。直到产生N个高质量的聚类中心,同时将其余的节点分配到对应的聚类中。在建立分型模型时,需要调整聚类中心参考度(Preference)和阻尼系数(Damping factor)参数。前者影响聚类数量的多少,值越大聚类数量越多;后者控制算法收敛效果。

算法初始,将吸引度矩阵和归属度矩阵初始化为0矩阵。

根据待聚类数据之间的相似度得到吸引度矩阵。吸引度矩阵的公式如下:

根据吸引度矩阵得到归属度矩阵。归属度矩阵的公式如下:

对吸引度矩阵和归属度矩阵进行衰减。衰减公式如下:

r

a

其中,i、j和k表示数据节点;数据节点i和节点j的相似度记为s(i,j),是指节点j与节点i之间的相似度;r(i,k)用来描述节点k对节点i的吸引度;a(i,k)用来描述节点i对于节点k作为聚类中心的认可度;λ为阻尼系数,可选为0.5;t表示迭代系数,t为小于等于最大迭代系数的正整数,每迭代一次t加1。

重复上述步骤直至吸引度矩阵和归属度矩阵稳定或达到最大迭代次数,得到最终分型模型,算法结束,得到最终分型模型。聚类中心固定不变时,吸引度矩阵和归属度矩阵稳定。取a(k,k)+r(k,k)为正数的k作为聚类中心。a(k,k)反应了节点k有多不适合被划分到其它聚类中心,r(k,k)反应了节点k作为聚类中心的能力。根据其它待聚类数据与聚类中心的距离对其它待聚类数据进行分类。

在本实施例中还提供了一种污染天气的分型装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”为可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本发明实施例的污染天气的分型装置的结构框图。如图3所示,本实施例提供一种污染天气的分型装置,包括:

第一获取模块301,用于根据历史污染数据获取污染案例;

第二获取模块302,用于获取与污染案例对应的污染气象数据;

预处理模块303,用于对污染气象数据进行预处理得到待聚类数据;

第一分型模块304,用于将待聚类数据依据AP聚类算法建立分型模型,并迭代更新分型模型得到最终分型模型;

第二分型模块305,用于根据最终分型模型对污染天气进行分型。

在一个具体的实施方式中,第一获取模块301包括:第一获取单元,用于根据地面站点的污染物数据计算地面站点的空气质量指数;第二获取单元,用于根据空气质量指数确定地面站点的污染等级;筛选单元,用于根据污染等级确定污染区域,并将面积超过设定面积的污染区域作为指定污染区域;第三获取单元,用于获取与指定污染区域对应的污染持续时间;第四获取单元,用于根据指定污染区域和污染持续时间确定污染案例。

本实施例中的污染天气的分型装置是以功能单元的形式来呈现,这里的单元是指ASIC电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。

上述各个模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。

本发明实施例还提供一种电子设备,具有上述图3所示的一种污染天气的分型装置。

请参阅图4,图4是本发明实施例提供的电子设备的硬件结构示意图,如图4所示,该终端可以包括:至少一个处理器401,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口403,存储器404,至少一个通信总线402。其中,通信总线402用于实现这些组件之间的连接通信。其中,通信接口403可以包括显示屏(Display)、键盘(Keyboard),可选通信接口403还可以包括标准的有线接口、无线接口。存储器404可以是高速RAM存储器(Random Access Memory,随机存取存储器),也可以是非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。存储器404可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以结合图3所描述的装置,存储器404中存储应用程序,且处理器401调用存储器404中存储的程序代码,以用于执行上述任一污染天气的分型方法。

其中,通信总线402可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。通信总线402可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

其中,存储器404可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);存储器404还可以包括上述种类的存储器的组合。

其中,处理器401可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。

其中,处理器401还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic,缩写:GAL)或其任意组合。

可选地,存储器404还用于存储程序指令。处理器401可以调用程序指令,实现如本申请图2实施例中所示的污染天气的分型方法。

本发明实施例还提供了一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的污染天气的分型方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard DiskDrive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号