法律状态公告日
法律状态信息
法律状态
2020-08-18
授权
授权
2018-10-09
实质审查的生效 IPC(主分类):G06F17/30 申请日:20180326
实质审查的生效
2018-09-07
公开
公开
技术领域
本发明涉及机器学习技术,具体涉及一种空气质量指数空间估计方法。
背景技术
空气污染是当下一个十分严重的问题,监测空气质量指数对于污染评估、环境治理等具有重要意义。目前,空气质量指数是通过空气质量监测站点进行实时监测的。然而,由于空气质量监测站点建设成本很高,其数量十分有限,这使得空气质量指数数据在空间上存在极大的稀疏性。
空气质量指数空间估计即估计任意无空气质量监测站点位置的空气质量指数。针对这一问题,传统方法主要考虑当前位置与周边空气质量监测站点的空间距离,采用线性插值(如反距离插值、克里金插值)进行空间估计。然而,由于空气质量受多种因素影响(如天气、地形、污染源等),因此空气质量指数随空间位置的变化是非线性的。针对此问题,当前也出现了一些综合考虑路网、交通、兴趣点、人流、天气等城市特征与空气质量的潜在关联,采用机器学习技术对空气质量指数进行非线性空间估计的方法。然而,这些方法主要针对城市区域,在非城市区域(指主要由水域、森林、沙漠等自然地形覆盖的区域)难以取得较好的性能。这是由于非城市区域和城市区域的空气质量变化规律差异很大,且在非城市区域难以获得大部分上述的城市特征。
针对此问题,可基于地形分布特征区分城市区域和非城市区域,然后采用机器学习技术训练能够区分城市区域和非城市区域的不同空气质量变化规律的模型。然而,该方法实施起来也存在很大问题,原因如下:国内绝大多数空气质量监测站点都部署在城市区域,部署在非城市区域的空气质量监测站点十分稀少,很多地区甚至完全没有部署在非城市区域的空气质量监测站点,使得这些地区现有空气质量监测站点产生的有标注数据无法覆盖所有类型的非城市区域,因此直接使用这些有标注数据无法训练能够区分城市区域和非城市区域的不同空气质量变化规律的模型。
发明内容
为克服现有技术的目标地区缺少部署在非城市区域的空气质量监测站点的不足,本发明提出了一种基于迁移半监督学习的非城市区域空气质量指数空间估计方法,基于迁移和半监督学习技术,有效利用辅助地区非城市区域空气质量监测站点产生的有标注数据和目标地区非城市区域的无标注数据。
本发明解决其技术问题所采用的技术方案是:
一种基于迁移半监督学习的非城市区域空气质量指数空间估计方法,其特征在于,所述方法包括以下步骤:
(1)基于地形分布和空气质量监测站点部署情况,在目标地区周边寻找辅助地区,并构造辅助样本集;
(2)基于迁移学习技术,结合目标地区有标注样本集和辅助样本集,训练多个回归模型;
(3)基于半监督学习技术,利用目标地区无标注样本集,增强并融合多个回归模型得到最终的空气质量指数空间估计模型。
进一步,所述步骤(1)中,数据准备的步骤如下:
(1.1)基于网格划分地区区域
给定一个地区,将其划分成多个不相交的正方形网格,每个网格g的边长均为w,且同一网格内的空气质量指数视为相同。其中,g.A代表g的影响区域,由g及其周围8个相邻的网格组成。
(1.2)计算地形分布向量和主要地形类型
给定网格g,计算g.A中各类自然地形的面积占比,即g.pf(森林地形面积占比)、g.pw(水域地形面积占比)和g.ps(沙漠地形面积占比),则g.pn=1-g.pf-g.pw-g.ps为普通地形面积占比。最终g的地形分布向量为lv(g)=<g.pf,g.pw,g.ps,g.pn>,g的主要地形类型为其中面积占比最大的地形类型。
(1.3)寻找辅助地区,构造辅助数据集;
(1.4)抽取特征,构造样本集。
再进一步,所述步骤(1.3)中,给定待估计的目标地区TR,辅助数据集构造步骤如下:
(1.3.1)计算TR中所有网格的主要地形类型,这些网格覆盖的地形类型集记为Ta(TR);计算TR中所有包含空气质量监测站点的网格的主要地形类型,这些网格覆盖的地形类型集记为Ts(TR),则Tn(TR)=Ta(TR)-Ts(TR)为TR中无空气质量监测站点覆盖的地形类型集;
(1.3.2)假定TR周边地区的集合为ARS,在ARS中查找距离TR空间距离最近的地区SR,若
(1.3.3)若
(1.3.4)由SRS中所有空气质量监测站点产生的数据即为辅助数据集,其中由所在网格的主要地形类型属于(1.3.1)中的Tn(TR)的空气质量监测站点产生的数据记为Dn(SRS),剩余空气质量监测站点产生的数据记为Ds(SRS)。
更进一步,所述步骤(1.4)中,对空气质量监测站点m产生的每一条数据,特征抽取步骤如下:
(1.4.1)根据(1.2)的方法计算m所在网格的地形分布向量lv(m);
(1.4.2)查询获取与m空间距离最近的N个空气质量监测站点(记为m.m1、...、m.mN);
(1.4.3)计算m与m.m1、...、m.mN间的空间距离(记为d(m,m.m1)、...、d(m,m.mN));
(1.4.4)基于欧氏距离计算lv(m)与lv(m.m1)、...、lv(m.mN)间的向量距离(记为s(lv(m),lv(m.m1))、...、s(lv(m),lv(m.mN)));
(1.4.5)则m的周边站点特征向量为gv(m)=<d(m,m.m1),s(lv(m),lv(m.m1)),aqi(m.m1),...,d(m,m.mN),s(lv(m),lv(m.mN)),aqi(m.mN)>(其中aqi(m.mN)为空气质量监测站点m.mN当前的空气质量指数);
(1.4.6)最终m的特征向量为fv(m)=<lv(m),gv(m)>。
所述步骤(2)中,迁移学习的步骤如下:
(2.1)分割辅助样本集和目标样本集
将由目标地区TR的空气质量监测站点产生的数据构造的样本集记为S(TR),由Dn(SRS)构造的样本集记为Sn(SRS),由Ds(SRS)构造的样本集记为Ss(SRS)。则目标样本集TS=S(TR)∪Sn(SRS),辅助样本集SS=Ss(SRS),样本集L=SS∪TS(假设SS的样本数量为n,TS的样本数量为m)。
(2.2)改进TrAdaBoost算法以训练迁移回归模型.
优选的,所述步骤(2.2)中,给定回归算法Learner,迁移回归模型训练步骤如下:
(2.2.1)初始化权重分布向量
(2.2.2)使用Learner,根据L及L上的权重分布向量wt训练一个基础回归模型ht,其中t为算法当前的迭代次数;
(2.2.3)计算ht在TS上的误差
(2.2.4)设置βt=εt/(1-εt),并更新权重分布向量
(2.2.5)若εt≥0.5或迭代次数超过指定阈值,则输出最终回归模型H,其中
所述步骤(3)的过程如下:
(3.1)利用目标地区无标注样本集进行半监督训练
有标注训练样本集为(2.1)中的L,无标注训练样本集U为TR中所有不包含空气质量监测站点的网格的数据构造的样本集,
(3.2)融合回归模型。
所述步骤(3.1)中,半监督回归模型训练步骤如下:
(3.1.1)使用3种不同的回归算法,按照(2.2)的方法训练3个回归模型H1、H2和H3;
(3.1.2)分别使用H1、H2和H3对U中的所有无标注样本进行估计;
(3.1.3)对H1,挑选出H2和H3估计差异最小的k个无标注样本,将H2和H3的估计均值作为其标注,得到伪标注样本集U1并放入用于迁移训练H1的目标样本集;
(3.1.4)对H2和H3,按照(3.1.3)的方法得到伪标注样本集U2和U3并分别放入用于训练H2和H3的目标样本集;
(3.1.5)若U中样本数量不足或迭代次数超过指定阈值,则输出H1、H2和H3。反之,则转向步骤(3.1.1)。
所述步骤(3.2)中,融合回归模型处理过程为:
(3.2.1)对有标注样本集L中的每一个样本,分别使用H1、H2和H3对其进行估计,得到3个估计值;
(3.2.2)以这3个估计值和样本的真实空气质量指数作为新的样本,够建新的样本集NL;
(3.2.3)基于NL、采用线性回归算法训练得到最终的空气质量指数空间估计模型。
本发明的技术构思为:分为数据准备、迁移学习和半监督学习3个阶段,(1)数据准备阶段的步骤如下:基于网格划分地区区域;计算地形分布向量和主要地形类型;寻找辅助地区,构造辅助数据集;抽取特征,构造样本集;(2)迁移学习阶段的步骤如下:分割辅助样本集和目标样本集;改进TrAdaBoost算法以训练迁移回归模型;(3)半监督学习阶段的步骤如下:利用目标地区无标注样本集进行半监督训练;融合回归模型。
本发明的有益效果主要表现在:基于迁移和半监督学习技术,有效利用辅助地区非城市区域空气质量监测站点产生的有标注数据和目标地区非城市区域的无标注数据。
附图说明
图1为方法总体流程图;
图2为数据准备阶段流程图;
图3为半监督学习阶段流程图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于迁移半监督学习的非城市区域空气质量指数空间估计方法,其特征在于,所述方法包括以下步骤:
(1)基于地形分布和空气质量监测站点部署情况,在目标地区周边寻找辅助地区,并构造辅助样本集;
(2)基于迁移学习技术,结合目标地区有标注样本集和辅助样本集,训练多个回归模型;
(3)基于半监督学习技术,利用目标地区无标注样本集,增强并融合多个回归模型得到最终的空气质量指数空间估计模型。
进一步,所述步骤(1)中,数据准备的步骤如下:
(1.1)基于网格划分地区区域
给定一个地区,将其划分成多个不相交的正方形网格,每个网格g的边长均为w,且同一网格内的空气质量指数视为相同。其中,g.A代表g的影响区域,由g及其周围8个相邻的网格组成。
(1.2)计算地形分布向量和主要地形类型
给定网格g,计算g.A中各类自然地形的面积占比,即g.pf(森林地形面积占比)、g.pw(水域地形面积占比)和g.ps(沙漠地形面积占比),则g.pn=1-g.pf-g.pw-g.ps为普通地形面积占比。最终g的地形分布向量为lv(g)=<g.pf,g.pw,g.ps,g.pn>,g的主要地形类型为其中面积占比最大的地形类型。
(1.3)寻找辅助地区,构造辅助数据集;
(1.4)抽取特征,构造样本集。
再进一步,所述步骤(1.3)中,给定待估计的目标地区TR,辅助数据集构造步骤如下:
(1.3.1)计算TR中所有网格的主要地形类型,这些网格覆盖的地形类型集记为Ta(TR);计算TR中所有包含空气质量监测站点的网格的主要地形类型,这些网格覆盖的地形类型集记为Ts(TR),则Tn(TR)=Ta(TR)-Ts(TR)为TR中无空气质量监测站点覆盖的地形类型集;
(1.3.2)假定TR周边地区的集合为ARS,在ARS中查找距离TR空间距离最近的地区SR,若
(1.3.3)若
(1.3.4)由SRS中所有空气质量监测站点产生的数据即为辅助数据集,其中由所在网格的主要地形类型属于(1.3.1)中的Tn(TR)的空气质量监测站点产生的数据记为Dn(SRS),剩余空气质量监测站点产生的数据记为Ds(SRS)。
更进一步,所述步骤(1.4)中,对空气质量监测站点m产生的每一条数据,特征抽取步骤如下:
(1.4.1)根据(1.2)的方法计算m所在网格的地形分布向量lv(m);
(1.4.2)查询获取与m空间距离最近的N个空气质量监测站点(记为m.m1、...、m.mN);
(1.4.3)计算m与m.m1、...、m.mN间的空间距离(记为d(m,m.m1)、...、d(m,m.mN));
(1.4.4)基于欧氏距离计算lv(m)与lv(m.m1)、...、lv(m.mN)间的向量距离(记为s(lv(m),lv(m.m1))、...、s(lv(m),lv(m.mN)));
(1.4.5)则m的周边站点特征向量为gv(m)=<d(m,m.m1),s(lv(m),lv(m.m1)),aqi(m.m1),...,d(m,m.mN),s(lv(m),lv(m.mN)),aqi(m.mN)>(其中aqi(m.mN)为空气质量监测站点m.mN当前的空气质量指数);
(1.4.6)最终m的特征向量为fv(m)=<lv(m),gv(m)>。
所述步骤(2)中,迁移学习的步骤如下:
(2.1)分割辅助样本集和目标样本集
将由目标地区TR的空气质量监测站点产生的数据构造的样本集记为S(TR),由Dn(SRS)构造的样本集记为Sn(SRS),由Ds(SRS)构造的样本集记为Ss(SRS)。则目标样本集TS=S(TR)∪Sn(SRS),辅助样本集SS=Ss(SRS),样本集L=SS∪TS(假设SS的样本数量为n,TS的样本数量为m)。
(2.2)改进TrAdaBoost算法以训练迁移回归模型.
优选的,所述步骤(2.2)中,给定回归算法Learner,迁移回归模型训练步骤如下:
(2.2.1)初始化权重分布向量
(2.2.2)使用Learner,根据L及L上的权重分布向量wt训练一个基础回归模型ht,其中t为算法当前的迭代次数;
(2.2.3)计算ht在TS上的误差
(2.2.4)设置βt=εt/(1-εt),并更新权重分布向量
(2.2.5)若εt≥0.5或迭代次数超过指定阈值,则输出最终回归模型H,其中T为算法最终迭代次数;反之,则转向步骤(2.2.2)。
所述步骤(3)的过程如下:
(3.1)利用目标地区无标注样本集进行半监督训练
有标注训练样本集为(2.1)中的L,无标注训练样本集U为TR中所有不包含空气质量监测站点的网格的数据构造的样本集,
(3.2)融合回归模型。
所述步骤(3.1)中,半监督回归模型训练步骤如下:
(3.1.1)使用3种不同的回归算法,按照(2.2)的方法训练3个回归模型H1、H2和H3;
(3.1.2)分别使用H1、H2和H3对U中的所有无标注样本进行估计;
(3.1.3)对H1,挑选出H2和H3估计差异最小的k个无标注样本,将H2和H3的估计均值作为其标注,得到伪标注样本集U1并放入用于迁移训练H1的目标样本集;
(3.1.4)对H2和H3,按照(3.1.3)的方法得到伪标注样本集U2和U3并分别放入用于训练H2和H3的目标样本集;
(3.1.5)若U中样本数量不足或迭代次数超过指定阈值,则输出H1、H2和H3。反之,则转向步骤(3.1.1)。
所述步骤(3.2)中,融合回归模型处理过程为:
(3.2.1)对有标注样本集L中的每一个样本,分别使用H1、H2和H3对其进行估计,得到3个估计值;
(3.2.2)以这3个估计值和样本的真实空气质量指数作为新的样本,够建新的样本集NL;
(3.2.3)基于NL、采用线性回归算法训练得到最终的空气质量指数空间估计模型。
机译: 基于空间区域调查结果的移动物体运动参数估计方法和基于空间的空间遥感复杂空间调查方法的实现方法
机译: 基于深度卷积神经网络的非结构自由空间安全可穿越区域估计
机译: 用于通信网络的数字视频图像传输方法,包括基于图像序列中估计的运动确定图像中与指定区域相对应的空间区域,并发送该区域的图像数据的一部分