首页> 中国专利> 一种基于深度学习和贝叶斯模型的空气质量分析预测方法

一种基于深度学习和贝叶斯模型的空气质量分析预测方法

摘要

本发明公开了一种基于深度学习和贝叶斯模型的空气质量分析预测方法,其技术方案要点是包括获取目标监测点的AQI数据;对AQI数据进行预处理,对AQI数据进行归一化处理;分别构建深度学习卷积网络模型、循环神经网络模型以及叶贝斯动态线性模型;将AQI数据分别输入到深度学习卷积网络模型和叶贝斯动态线性模型中,叶贝斯动态线性模型运行后输出第一预测AQI数据;将深度学习卷积网络模型提取的特征输入至循环神经网络模型中运行后输出第二预测AQI数据;将第一预测AQI数据和第二预测AQI数据输入值混合模型中,混合模型运行后输出最终预测AQI数据,该空气质量分析预测方法可以对空气质量进行分析和预测,评估大气改善情况,明确污染源,提出空气污染防控建议。

著录项

  • 公开/公告号CN112884243A

    专利类型发明专利

  • 公开/公告日2021-06-01

    原文格式PDF

  • 申请/专利权人 杭州职业技术学院;

    申请/专利号CN202110282474.X

  • 发明设计人 富众杰;林海平;黃炳强;

    申请日2021-03-16

  • 分类号G06Q10/04(20120101);G06Q50/26(20120101);G06N3/04(20060101);G06N3/08(20060101);G06N7/00(20060101);

  • 代理机构11501 北京祺和祺知识产权代理有限公司;

  • 代理人吴新鹏

  • 地址 310000 浙江省杭州市下沙高教园区学源街68号

  • 入库时间 2023-06-19 11:11:32

说明书

技术领域

本发明涉及一种大气污染物浓度预方法,更具体地说,它涉及一种基于深度学习和贝叶斯模型的空气质量分析预测方法。

背景技术

大气质量的好坏是近年来持续受到关注的问题,我国增加了大量的大气质量监测站,用以监测当地的大气质量与气象数据。其中监测站所能监测到的大气质量数据由6个因素组成,分别是:颗粒物(PM2.5和PM10)和气态物质(NO

由于气象环境因素较为复杂,大气污染物浓度的指标预测一直以来都是一个比较复杂的问题。目前,常用的预测方法有基于大气化学传输模型的机理预报方法与基于机器学习模型的统计预报方法。前者在实际工程中得到了广泛的运用,然而由于大气是一个非常复杂的系统,从理论上难以运行完全量化,因此机理预报方法存在较大的误差。

目前,国内气象局对天气状态和各类污染物浓度的预报采用大气化学耦合模式(WRF-Chem)运算得到。由于数值模式计算、排放源清单数据存在不同程度的误差,因此模式对污染物浓度的预测效果并不理想。

发明内容

针对现有技术存在的不足,本发明的目的在于提供一种基于深度学习和贝叶斯模型的空气质量分析预测方法,该空气质量分析预测方法可以对空气质量进行分析和预测,评估大气改善情况,明确污染源,提出空气污染防控建议。

为实现上述目的,本发明提供了如下技术方案:一种基于深度学习和贝叶斯模型的空气质量分析预测方法,包括有:

步骤S1:获取目标监测点的AQI数据;

步骤S2:对AQI数据进行预处理,根据拉以达准则判断数据序列中的异常值并去除,对于某时刻缺失的数据,采用线性插值的方法补全;

步骤S3:对AQI数据进行归一化处理;

步骤S4:分别构建深度学习卷积网络模型、循环神经网络模型以及叶贝斯动态线性模型;

步骤S5:将归一化后的AQI数据分别输入到深度学习卷积网络模型和叶贝斯动态线性模型中,所述深度学习卷积网络模型运行后将长的输入序列转换为高级特征组成的短的序列,所述叶贝斯动态线性模型运行后输出第一预测AQI数据;

步骤S6:将深度学习卷积网络模型提取的特征组成的序列输入至循环神经网络模型中,所述循环神经网络模型运行后输出第二预测AQI数据;

步骤S7:构建混合模型,将第一预测AQI数据和第二预测AQI数据输入值混合模型中,所述混合模型运行后输出最终预测AQI数据。

本发明进一步设置为:所述步骤S3中所述的归一化处理是为了将数据的值域处于一个比较小的波动范围内,降低不同数量级或者不同量纲给数据带来的影响,设定特征分布为正态分布,通过方差和均值,将特征映射到标准正态分布上,其计算公式为:

其中y

本发明进一步设置为:所述步骤S4中具体包括有:

步骤S41,针对所构建的模型,在AQI数据选择训练数据和测试数据,完成对深度学习卷积网络模型、循环神经网络模型以及叶贝斯动态线性模型的初始化;

步骤S42,利用训练数据对深度学习卷积网络模型、循环神经网络模型以及叶贝斯动态线性模型进行训练;

步骤S43,利用训练好的深度学习卷积网络模型、循环神经网络模型以及叶贝斯动态线性模型,依据测试数据得到测试的预测结果;

步骤S44,利用训练好的深度学习卷积网络模型、循环神经网络模型以及叶贝斯动态线性模型进行预测。

本发明进一步设置为:所述步骤S5中叶贝斯动态线性模型包括有:观测方程、状态方程和初始信息,将预测分布看成是条件概论分布,根据先验信息求预测分布,运用贝叶斯公式求后验信息,并对先验信息进行修正,求出预测值。

本发明进一步设置为:对于循环神经网络模型,其训练阶段的损失函数如下:

其中a是预测值,y是样本值。

本发明进一步设置为:所述循环神经网络模型中还包括有Adam算法和Dropout算法;

所述Adam算法用于计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率;

所述Dropout算法用于减少特征之间的依赖性,降低了过拟合发生的概率。

本发明进一步设置为:还包括有步骤S8,获取MEO数据;

步骤S9,基于MEO数据和AQI数据进行相关性分析;

步骤S10,基于MEO数据和AQI数据进行后向轨迹和潜在源贡献分析;

步骤S11,将相关性分析结果和后向轨迹和潜在源贡献分析结果一并导入最终预测AQI数据得到综合改善建议。

本发明进一步设置为:所述步骤S9中相关性分析具体包括有:将PM2.5和PM10分别作为第一变量,将天气、温度、气压、湿度、风速与风向一起作为第二变量导入以下公式:

其中x

本发明进一步设置为:所述步骤S10中后向轨迹和潜在源贡献分析具体包括有:按照经纬度将研究区域分为i×j个网格,其PSCF计算公式为:

其中n

综上所述,本发明具有以下有益效果:获取空气质量数据AQI(PM2.5,PM10,NO

深度学习卷积神经网络CNN用作特征提取:空气质量数据维度多,特征提取困难,深度学习卷积神经网络CNN通过卷积核局部提取特征,并且权重共享,解决了人工神经网络参数过多的缺点,对特征提取有很好的效果,具有强大的特征提取能力,可以将长的输入序列转换为高级特征组成的短的序列,将提取的特征组成的序列作为循环神经网络-长短期记忆神经网络LSTM(Long Short Term Memory)的输入。

循环神经网络模型(长短期记忆神经网络LSTM)作为预测模型:由于空气污染物的浓度与时间具有极强的关联性,利用长短期记忆神经网络LSTM可以很好的处理这种与记忆相关的问题。LSTM是在RNN基础上进行改进和优化的,解决在训练过程中的梯度消失问题,其模型结构中包含着一组记忆模块,它们彼此关联从而取代普通RNN中的记忆单元,LSTM比普通RNN训练更加容易,目前它已在多个领域取得了很好的研究效果。

LSTM输入是一个小时的特征,即某时刻的AQI和六大污染物指标,输出是一个神经元,用于预测AQL

贝叶斯动态线性模型DLM:贝叶斯预测是预测突发事件的需要发展起来的一种预测方法。它不仅依赖历史测量数据,根据模型的知识进行预测,而且包含专家的经验信息和主观判断来进行预测,这对于预测突发事件特别有用。

贝叶斯预测的基本思想是建立动态模型,把预测分布看成是条件概论分布,根据先验信息求预测分布,运用贝叶斯公式求后验信息,并对先验信息进行修正,求出预测值。贝叶斯动态线性模型由观测方程、状态方程和初始信息三部分组成。

混合模型:搭建好模型框架后,构建一个长短期记忆神经网络LSTM+贝叶斯动态线性模型DLM混合模型。LSTM模型的输入是历史AQI数据和六大污染物指标,输出是预测AQI;贝叶斯动态线性模型的输入是历史AQI数据和经验信息,输出是预测AQI。将2个预测模型输出AQI进行融合,得到一个新的预测结果,使模型变得特征多元化,具有更强的学习能力,更高的预测准确率。

附图说明

图1为空气质量分析预测方法的原理框图。

具体实施方式

下面结合附图和实施例,对本发明进一步详细说明。其中相同的零部件用相同的附图标记表示。需要说明的是,下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向,词语“底面”和“顶面”、“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。

实施例一:参照图1所示,为实现上述目的,本发明提供了如下技术方案:一种基于深度学习和贝叶斯模型的空气质量分析预测方法,包括有:

步骤S1:获取目标监测点的AQI数据;

步骤S2:对AQI数据进行预处理,根据拉以达准则判断数据序列中的异常值并去除,对于某时刻缺失的数据,采用线性插值的方法补全;

步骤S3:对AQI数据进行归一化处理;

步骤S4:分别构建深度学习卷积网络模型、循环神经网络模型以及叶贝斯动态线性模型;

步骤S5:将归一化后的AQI数据分别输入到深度学习卷积网络模型和叶贝斯动态线性模型中,深度学习卷积网络模型运行后将长的输入序列转换为高级特征组成的短的序列,叶贝斯动态线性模型运行后输出第一预测AQI数据;

步骤S6:将深度学习卷积网络模型提取的特征组成的序列输入至循环神经网络模型中,循环神经网络模型运行后输出第二预测AQI数据;

步骤S7:构建混合模型,将第一预测AQI数据和第二预测AQI数据输入值混合模型中,混合模型运行后输出最终预测AQI数据。

本发明的设计:获取空气质量数据AQI(PM2.5,PM10,NO

深度学习卷积神经网络CNN用作特征提取:空气质量数据维度多,特征提取困难,深度学习卷积神经网络CNN通过卷积核局部提取特征,并且权重共享,解决了人工神经网络参数过多的缺点,对特征提取有很好的效果,具有强大的特征提取能力,可以将长的输入序列转换为高级特征组成的短的序列,将提取的特征组成的序列作为循环神经网络-长短期记忆神经网络LSTM(Long Short Term Memory)的输入。

循环神经网络模型(长短期记忆神经网络LSTM)作为预测模型:由于空气污染物的浓度与时间具有极强的关联性,利用长短期记忆神经网络LSTM可以很好的处理这种与记忆相关的问题。LSTM是在RNN基础上进行改进和优化的,解决在训练过程中的梯度消失问题,其模型结构中包含着一组记忆模块,它们彼此关联从而取代普通RNN中的记忆单元,LSTM比普通RNN训练更加容易,目前它已在多个领域取得了很好的研究效果。

LSTM输入是一个小时的特征,即某时刻的AQI和六大污染物指标,输出是一个神经元,用于预测AQL

贝叶斯动态线性模型DLM:贝叶斯预测是预测突发事件的需要发展起来的一种预测方法。它不仅依赖历史测量数据,根据模型的知识进行预测,而且包含专家的经验信息和主观判断来进行预测,这对于预测突发事件特别有用。

贝叶斯预测的基本思想是建立动态模型,把预测分布看成是条件概论分布,根据先验信息求预测分布,运用贝叶斯公式求后验信息,并对先验信息进行修正,求出预测值。贝叶斯动态线性模型由观测方程、状态方程和初始信息三部分组成。

混合模型:搭建好模型框架后,构建一个长短期记忆神经网络LSTM+贝叶斯动态线性模型DLM混合模型。LSTM模型的输入是历史AQI数据和六大污染物指标,输出是预测AQI;贝叶斯动态线性模型的输入是历史AQI数据和经验信息,输出是预测AQI。将2个预测模型输出AQI进行融合,得到一个新的预测结果,使模型变得特征多元化,具有更强的学习能力,更高的预测准确率。

步骤S3中的归一化处理是为了将数据的值域处于一个比较小的波动范围内,降低不同数量级或者不同量纲给数据带来的影响,设定特征分布为正态分布,通过方差和均值,将特征映射到标准正态分布上,其计算公式为:

其中y

步骤S4中具体包括有:

步骤S41,针对所构建的模型,在AQI数据选择训练数据和测试数据,完成对深度学习卷积网络模型、循环神经网络模型以及叶贝斯动态线性模型的初始化;

步骤S42,利用训练数据对深度学习卷积网络模型、循环神经网络模型以及叶贝斯动态线性模型进行训练;

步骤S43,利用训练好的深度学习卷积网络模型、循环神经网络模型以及叶贝斯动态线性模型,依据测试数据得到测试的预测结果;

步骤S44,利用训练好的深度学习卷积网络模型、循环神经网络模型以及叶贝斯动态线性模型进行预测。

步骤S5中叶贝斯动态线性模型包括有:观测方程、状态方程和初始信息,将预测分布看成是条件概论分布,根据先验信息求预测分布,运用贝叶斯公式求后验信息,并对先验信息进行修正,求出预测值。

LSTM神经网络模型效果及优化目标是通过损失函数来定义,估测网络模型预测值和真实值的不一致程度。优化问题旨在最小化损失函数,根据预测值和真实值的接近程度优化网络参数,得到最优模型。空气质量预测问题属于回归问题,采用均方差损失函数,定义如下:

其中a是预测值,y是样本值。

循环神经网络模型中还包括有Adam算法和Dropout算法;

Adam算法用于计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率;

Adam通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率。Adam算法同时获得了适应性梯度算法(AdaGrad)和均方根传播(RMSProp)算法的优点。Adam不仅如RMSProp算法那样基于一阶矩均值计算适应性参数学习率,它同时还充分利用了梯度的二阶矩均值,Adam算法能适应参数稀疏、目标非平稳、含噪音等苛刻条件,且计算速度快、参数自调节,可适用于大部分场合。

Dropout算法用于减少特征之间的依赖性,降低了过拟合发生的概率。

采用Dropout算法可以有效缓解过拟合的发生,提高预测的准确率。当一个复杂的前馈神经网络训练样本少时,训练出的模型容易产生过拟合。在训练神经网络过程中,采用Dropout算法随机丢弃一部分神经网络单元,暂时移除训练过程,在前向传播时,让某个神经元的激活值以一定的概率p停止工作,使模型泛化性更强,训练负荷减少,从而提高训练速度。

当准备好了数据,并设定好模型与各项参数后,深度学习将会进行多次的训练与验算,直到生成一个最拟合目标与期望的模型。

还包括有步骤S8,获取MEO数据;

步骤S9,基于MEO数据和AQI数据进行相关性分析;采用Spearman相关系数进行监测气象数据与大气质量数据之间的相关性分析。气象条件是制约空气质量的重要因素之一,影响空气污染物的生成、扩散和运输等。采用Spearman相关系数法分析AQI、六项空气污染物与气象因素的关系。Spearman相关系数是利用单调方程评价两个统计变量的相关性,当两个变量完全单调相关时,斯皮尔曼相关系数则为+1或-1,如果系数为0,则代表两个变量不相关。

步骤S10,基于MEO数据和AQI数据进行后向轨迹和潜在源贡献分析;分析影响污染物浓度的潜在源区和不同源区对污染物浓度的贡献。后向轨迹是一种根据温度、气压、风向等气象参数分析污染物扩散和运动路径的模型,广泛用于污染物疏松路径研究。潜在源贡献因子PSCF分析法是利用后向轨迹和污染物浓度结合分析特定污染物潜在来源和分布。该方法按照经纬度将研究区域分为i×j个网格,将经过某一网格(i,j)的所有气流轨迹数记为n

步骤S11,将相关性分析结果和后向轨迹和潜在源贡献分析结果一并导入最终预测AQI数据得到综合改善建议。

步骤S9中相关性分析具体包括有:将PM2.5和PM10分别作为第一变量,将天气、温度、气压、湿度、风速与风向一起作为第二变量导入以下公式:

其中x

步骤S10中后向轨迹和潜在源贡献分析具体包括有:按照经纬度将研究区域分为i×j个网格,其PSCF计算公式为:

其中n

实施例二:

研究大气污染物之间的空间相关性,提出一种空间转换方法。通过空域划分、空域聚集与空域差值,将目标监测站周围的区域进行划分,使得每个区域都能获取到相同格式的大气质量数据和气象数据,最终将空间稀疏的大气质量数据转换为统一的一致输入,提取空域数据之间的特征。

通过收集历史大气质量观测数据与气象数据,获得目标区域中心监测站点与邻近区域监测站点的集合S={S

由于大气污染物漂浮在广阔的地理空间中,并随着时间和地形的影响,随时处于可移动扩散状态,因此预测一个目标区域未来48小时的大气质量指数,不仅需要详细考虑目标区域的历史大气质量指数

1)大气污染扩散性。因为大气污染物分散在不同地点,并且会随着时间的推移,区域地理环境的制约进行扩散与转移,我们通过利用来自邻域空间的数据,进一步的预测更多信息。

2)空间相关性。空域划分将分散的大气质量数据合并到某一个目标区域中,较近的区域具有更细的粒度,而更远的区域具有更粗的粒度。此外,不同距离的区域因距离而变化显示出不同的影响。

3)可扩展性。它通过确定了输入的上限(区域数),与传统空间聚合的方法相比,降低了复杂性。此外,空间插值方法通过填充划分区域的缺失值并为所有监控站生成一致的输入来克服空间稀疏性,这使我们能够使用不同站点的数据一起训练模型,一定程度上增加了模型的精确度。

空间转换方法的流程首先是选取一个需要预测的目标大气质量监测站作为圆心,以5公里为第一半径生成内监测区;以20公里为第二半径生成外环,将内监测区以外并且外环以内的区域作为外监测区;将内监测区内所有监测站与目标监测点连接,获取相邻两监测站与目标监测点之间的内监测角度,以所有内监测角度中最小角度的内监测角度的角平分线为起始轴,以每45°为一内扇形区域,划分出8个内扇形区域;将外监测区内所有监测站与目标监测点连接,获取相邻两测站与目标监测点之间的外监测角度,以所有外监测角度中最小角度的外监测角度的角平分线为起始轴,以每45°为一外扇形区域,划分出8个内扇形区域。

从而加大每一个扇形区域内尽可能的拥有监测站,减小虚拟监测站的使用提高准确性。

随后对每个扇形区域进行判断,如果一个区域当中有一个或多个监测站,则根据这几个监测站距离目标监测站的距离,为该区域内的每个监测站的记录数据分配权重进行回归操作,得到该区域的平均监测数据;如果该区域没有监测站,将在这些地区中心生成一个虚拟监测站,使用经典的空间插值方法,反距离加权IDW(Inverse Distance Weighted)来插值虚拟监测站的数据。

该方法的关键点在于将一个特征指定为主要特征,其他特征指定为辅助特征。其中主要特征指的是目标监测站点的历史大气质量指数

空域聚集算法:空域划分时,由于监测站点在地理因素上的分配不平均性以及其他因素限制,可能导致某些区域内存在多个检测站点,数据过多,冗余性增加,为该区域内的每个监测站的记录数据分配权重进行回归操作,得到该区域的平均监测数据,拟用下列公式计算:

其中y为该区域的平均监测数据,W为不同的权值,W的大小则根据该区域内每个监测点距离目标监测点的距离确定。

空域差值算法:空域划分时,有一些较偏远的目标监测站点划分得到的区域没有监测站,在该区域中生成一个虚拟监测站点补全该区域中的缺失值,利用周边区域的监测站点的捕获数据来生成该区域虚拟监测站点的数据。拟采用反距离加权方法,该方法使用已知点处可用数值的线性权重组合来计算未知点的指定值,用下列公式计算:

其中,Z(x,y)是差值预测输出,(x,y)是差值点坐标,(x

以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号