技术领域
本发明涉及风险评估技术领域,具体涉及一种基于时空矩阵分解的空气质量推断方法。
背景技术
随着城市化进程的加快,空气污染已成为危害人类身体健康的重要问题。因此,获取高时空分辨率(细粒度)的城市空气质量地图,并依据地图的指导规划出行计划和出行方式,对于保护人类的身体健康具有重要意义。
目前,人们获取城市空气质量数据的途径大致有4种,1、通过空气质量监测站的监测;2、通过卫星遥感;3、通过人群或车辆携带的移动传感器的检测;4、根据已有数据,通过计算来评估一定区域内的空气质量。
通过空气质量监测站监测空气质量具有良好的效果,但也存在着明显的缺陷,具体体现在:虽然这些监测站可以定期采集各种空气污染物,并提供高时间分辨率的准确空气质量值 (如每小时),但由于其庞大的建设和维护成本(一个基站的建设费用约为20万美元,每年维护的费用为3万美元)严重限制了监测站部署的数量,导致空间覆盖率极小。而卫星遥感数据只能体现大气层的空气质量,不能体现人类居住的城市地面空间的空气质量,在多云天气,卫星遥感数据的准确度会受到较大影响,而且收集使用这类数据的成本也较高。通过人群或车辆携带移动传感器的方式检测空气质量可以弥补空气质量监测站数量稀少的缺陷,但现有的传感器通常是通过光散射法进行感知,对CO等部分气体敏感,而对于具有普遍影响的PM2.5和PM10并不适合,因此,并不能解决实际问题。
通过计算来评估一定区域内的空气质量的方法明显具有低成本的优势,其原理是:基于区域内的空气质量监测站提供的数据,以一定的数学计算方法,对区域内没有空气质量监测站的地区的空气质量进行推断。常见的推断方法有:高斯烟羽模型、土地利用回归(LUR)模型、支持向量回归(SVR)、深度循环神经网络(RNN)、人工神经网络(ANN)、差分自回归综合移动平均(ARIMA)模型、高斯过程回归(GPR)和反距离加权(IDW)插值等。
这些计算方法也存在着一定的缺陷,比如有些方法(如深度循环神经网络(RNN))依赖于大量的空气质量监测站提供的数据,当空气质量监测站数量不足时,该方法就无法使用,再比如,一些方法(如差分自回归综合移动平均(ARIMA)模型)对于没有空气监测站的地区无法作出合理推断,其推断出来的数据的精度和稳定性都不理想。
如何根据现有的空气质量监测站的数据去推断区域内没有空气质量监测站的地区的空气质量,并且使推断数据具有良好的精度和稳定性,能够满足人类保护身体健康的需要,是一个迫切需要解决的问题。
发明内容
为解决现有技术中存在的问题,本发明提供了一种基于时空矩阵分解的空气质量推断方法,该方法可以依据区域内现有的空气质量监测站的数据,合理推断区域内没有空气质量监测站的地区的空气质量,并且推断的结果具有良好的精度和稳定性。
为实现上述目的,本发明的技术方案是:
一种基于时空矩阵分解的空气质量推断方法,包括步骤1、收集空气质量监测数据,获取时间特征矩阵和空间特征矩阵;步骤2、设计基于时空矩阵分解的空气质量推断模型,并以此模型为依据推断未知区域的空气质量。
优选的,所述的步骤1包括如下具体步骤:A、确定需推断空气质量区域的经纬度范围,并确定该区域内的空气质量监测站的数量和地点;B、将该区域在经度和纬度方向上划分为若干个网格,将设有空气监测站的网格作为已知监测区,将没有空气质量监测站的未知区域的网格作为未知推断区;C、收集各个已知监测区在一定时间段内的空气污染物的浓度数据,获取空气质量矩阵X,其中一行表示一个网格,一列表示一个时刻,行数为M,列数为N;D、收集区域内上述一定时间段内的各种气象特征数据作为时间特征数据集,使用软件程序对时间特征数据进行整合和提取,形成时间特征矩阵Z,其中一行表示一个时刻,一列表示一个时间特征,行数为N,列数为Q;E、获取区域内的空间特征数据集;F、提取每个网格里面的空间特征数据,对空间特征数据进行整合和提取,获取空间特征矩阵Y,其中一行表示一个网格,一列表示一个空间特征,行数为M,列数为P。
优选的,所述的具体步骤C中,空气污染物指的是PM
优选的,所述的具体步骤D中,天气和风向分别设有多个子特征,通过One-hot编码将各个子特征的特征值转换成新的二值向量特征,天气的子分类特征包括14种天气状况,即:晴天、多云、阴天、大雨、小雨、雷雨、小雪、中雪、大雪、大雾、沙尘暴、尘土,风向的子分类特征包括10种风向,即:东、西、南、北、不稳定、东南、东北、西南、西北、无,因此得到Q=28个时间特征。
优选的,所述的具体步骤E中,提取每个网格的空间特征数据,包括POI(中文译为兴趣点,为开放地图中的常用标注形式,如OSM地图)、道路和土地利用;设定POI为点类型的特征,所述的点类型的特征包括交通工具、学校、交通位置、超市、餐馆、娱乐场所、公交车站、旅馆,计算每个网格内的POI数量;所述的道路设定为线类型的特征,包括高速公路、干线、主干道、二级公路和三级公路共5个特征,在每个网格中记录每种道路的总长度;所述的土地利用是多边形类的特征,包括森林、公园、住宅、工业和商业区域5个特征,计算不同的土地利用在每个网格中的面积,共有P=18个空间特征。
优选的,所述的步骤2包括如下具体步骤:1、空气质量推断模型的设计;2、对空气质量推断模型进行优化,推断完整的空气质量矩阵。
优选的,所述的具体步骤1的设计步骤为:
a、引入一个与X相同大小的指示矩阵W
b、引入与Y相同大小的指示矩阵W
c、引入与Z相同大小的指示矩阵W
d、设计空气质量推断模型为:
式中,λ1
优选的,所述的公式(1)的推理步骤为:
首先,X建模为:
其中,
其次,按如下步骤进行推理:
1)、最终目的:获得完整的重构矩阵
2)、通过让重构矩阵
3)、由于矩阵X、Y和Z里部分数据缺失,噪声的存在,加入了指示矩阵W
4)、若S、T、U和V不受约束,便会有无穷多个等价解,通过引入S、T、U和V的正则化项,防止产生过拟合现象,从而建立空气质量推断模型:
优选的,所述的具体步骤2中,以如下方式进行优化:
采用共轭梯度下降法(CGD)求解
θ=[s
在每次迭代中,CGD更新向量θ为:
θ
式中
式(6)中
式(6)中
式(6)中
式(6)中
以上优化算法从随机初始化θ开始,当
本发明一种基于时空矩阵分解的空气质量推断方法具有如下有益效果:
1、本发明利用空气质量推断模型的结构信息推断未知推断区的空气质量,而不用引入额外的数据源,成本较低;
2、本发明从空间和时间的角度来利用相关特征来表征空气质量的空间相关性和时间依赖性,通过将特征数据嵌入到模型中来解决特征数据缺失的问题,相比起现有模型更合理;
3、本发明易于解释,用交叉验证法对本发明和现有几种空气质量推断方法进行测试,结果表明,与现有技术相比,本发明在推理精度和稳定性上都更优。
具体实施方式
以下所述,是以阶梯递进的方式对本发明的实施方式详细说明,该说明仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
本发明的描述中,需要说明的是,术语“上”“下”“左”“右”“顶”“底”“内”“外”等指示的方位或位置关系,仅是为了描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以及特定的方位构造和操作,因此不能理解为对本发明的限制。
一种基于时空矩阵分解的空气质量推断方法,包括步骤1、收集空气质量监测数据,获取时间特征矩阵和空间特征矩阵;步骤2、设计基于时空矩阵分解的空气质量推断模型,并以此模型为依据推断未知区域的空气质量;
所述的步骤1包括如下具体步骤:A、确定需推断空气质量区域的经纬度范围,并确定该区域内的空气质量监测站的数量和地点;以北京市相关地区为例,位于经纬度(116.12-116.69E,39.67-40.11N),约50公里x 50公里,该地区有L=22个空气质量监测站;B、将该区域在经度和纬度方向上划分为若干个网格,将设有空气监测站的网格作为已知监测区,将没有空气质量监测站的网格作为未知推断区;我们将区域划分为M=50x 50=2500个网格,因此,每个网格大约是1km x 1km,在2500个网格中,22个网格被观察到,为已知监测区,其余的未被观察到,为未知推断区;C、收集各个已知监测区在一定时间段内的空气污染物的浓度数据,获取空气质量矩阵X,其中一行表示一个网格,一列表示一个时刻,行数为M,列数为N;收集该地区,以PM
所述的具体步骤C中,空气污染物指的是PM
所述的具体步骤D中,天气和风向分别设有多个子特征,通过One-hot编码将各个子特征的特征值转换成新的二值向量特征,天气的子分类特征包括14种天气状况,即晴天、多云、阴天、大雨、小雨、雷雨、小雪、中雪、大雪、大雾、沙尘暴、尘土,风向的子分类特征包括10种风向即:东、西、南、北、不稳定、东南、东北、西南、西北、无,因此得到Q=28 个时间特征;包括4个数值特征、14个天气子分类特征、10种风向子分类特征;
所述的具体步骤E中,提取每个网格的空间特征数据,包括POI、道路和土地利用;设定POI为点类型的特征,所述的点类型的特征包括交通工具、学校、交通位置、超市、餐馆、娱乐场所、公交车站、旅馆,计算每个网格内的POI数量;所述的道路设定为线类型的特征,包括高速公路、干线、主干道、二级公路和三级公路共5个特征,在每个网格中记录每种道路的总长度;所述的土地利用是多边形类的特征,包括森林、公园、住宅、工业和商业区域5个特征,计算不同的土地利用在每个网格中的面积,共有P=18个空间特征;
所述的步骤2包括如下具体步骤:1、空气质量推断模型的设计;2、对空气质量推断模型进行优化,推断完整的空气质量矩阵。
所述的具体步骤1的设计步骤为:
a、引入一个与X相同大小的指示矩阵W
b、引入与Y相同大小的指示矩阵W
c、引入与Z相同大小的指示矩阵W
d、设计空气质量推断模型为:
式中,λ
X的大部分条目都缺失了(例如,在北京的真实数据集中,当M=2500,N=8570时,缺失率高达99.3%),如此少量的已知条目无法提供足够的信息来准确确定剩下的条目;这促使我们利用时空特征数据提供的条目之间的相似性信息来提高推理性能;
所述的公式(1)的推理步骤为:
首先,X建模为:
其中,
其次,按如下步骤进行推理:
1)、最终目的:获得完整的重构矩阵
2)、通过让重构矩阵
3)、由于矩阵X、Y和Z里部分数据缺失,噪声的存在,加入了指示矩阵W
4)、若S、T、U和V不受约束,便会有无穷多个等价解,通过引入S、T、U和V的正则化项,防止产生过拟合现象,从而建立空气质量推断模型:
所述的具体步骤2中,以如下方式进行优化:
采用共轭梯度下降法(CGD)求解
θ=[s
上式中,s
在每次迭代中,CGD更新向量θ为:
θ
式中
式(6)中
式(6)中
式(6)中
式(6)中
以上优化算法从随机初始化θ开始,当
机译: 基于无线网络的实时空气质量监测系统
机译: 一种基于电离电流确定内燃机的空气质量比的方法
机译: 一种基于电离电流确定内燃机的空气质量比的方法