首页> 中国专利> 重点管控区域污染防控管理办法

重点管控区域污染防控管理办法

摘要

本发明提供一种重点管控区域污染防控管理办法,包括如下步骤:对历史基础数据进行收集;将历史基础数据进行分类、匹配和清洗,并清理异常值,将缺失值进行插值处理;对已有数据进行特征工程的提取,并通过相关系数法和10折交叉验证,选取出34个特征变量;在此基础上,将数据分为训练集、验证集及测试集三部分;通过训练随机森林模型及Xgboost模型,得出特征变量的权重矩阵,进而得到AQI预测值及其准确性;通过构建复合堆叠回归模型,确定不同模型预测值的权重,进而输出AQI的最终预测值。该方法通过AQI历史数据,结合六因子、气象、固定源、移动源等参数,通过大数据分析、模型算法,预测短时间内未来重点区域AQI的变化情况,为重点区域污染治理工作提供辅助的参考和决策。

著录项

  • 公开/公告号CN113837436A

    专利类型发明专利

  • 公开/公告日2021-12-24

    原文格式PDF

  • 申请/专利权人 成都市环境保护信息中心;

    申请/专利号CN202110952308.6

  • 发明设计人 周佳;

    申请日2021-08-19

  • 分类号G06Q10/04(20120101);G06K9/62(20060101);G06Q50/26(20120101);

  • 代理机构51348 四川雍和道知识产权代理事务所(特殊普通合伙);

  • 代理人刘宇辉

  • 地址 610015 四川省成都市青羊区君平街26号

  • 入库时间 2023-06-19 13:49:36

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-03-25

    实质审查的生效 IPC(主分类):G06Q10/04 专利申请号:2021109523086 申请日:20210819

    实质审查的生效

说明书

技术领域

本发明具体涉及一种重点管控区域污染防控管理办法。

背景技术

空气质量的好坏严重影响着人们的身体健康,也对经济社会可持续发展造成极大的威胁。因此对于人类生活健康和国家可持续发展而言,开展环境空气质量精确预测也注定成为一项不可缺少的重要工作。

影响空气污染的要素较多,现有的预测模型还需要在后续优化过程中不断加入其他参数,配合回归测试,提高模型准确性。这种方式并不方便,因此急提出一种重点管控区域污染防控管理办法以解决这一问题。

发明内容

本发明的目的在于针对现有技术的不足,提供一种重点管控区域污染防控管理办法,该重点管控区域污染防控管理办法可以很好地解决上述问题。

为达到上述要求,本发明采取的技术方案是:提供一种重点管控区域污染防控管理办法,该重点管控区域污染防控管理办法包括如下步骤:

S1:对区域内各站点的历史基础数据进行收集的步骤;

S2:将所述历史基础数据按照站点和时间进行分类及匹配,对各个站点的所述历史基础数据进行清洗,并对异常值进行清理,将缺失值进行插值处理;

S3:对已有数据进行特征工程的提取;

S4:通过相关系数法和10折交叉验证选取出34个特征变量;

S5:基于以上特征,将数据分为训练集、验证集和测试集三部分;

S6:使用训练集分别训练随机森林模型和Xgboost模型,每个模型分别得出特征变量的权重矩阵,并利用验证集进行参数调整;

S7:对于两个模型,分别利用测试集预测AQI值,并得出其准确性;

S8:利用上述两个模型所得的预测值,构建复合堆叠回归模型,确定不同模型预测值的权重,进而输出AQI的最终预测值。

该重点管控区域污染防控管理办法具有的优点如下:

该方法通过AQI历史数据,结合六因子、气象、固定源、移动源等参数,通过大数据分析、模型算法,预测短时间内未来重点区域AQI的变化情况,为重点区域污染治理工作提供辅助的参考和决策。同时可以预测未来几个小时内或者某个时段的AQI变化情况,以及是否超标,对于环境治理工作中保优良天战役有着较大的帮助,可以根据预测结论提前作出相关决策和防治工作,避免当前站点空气质量超标,实现站点的精细化管理。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,在这些附图中使用相同的参考标号来表示相同或相似的部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1示意性地示出了根据本申请一个实施例的重点管控区域污染防控管理办法的流程示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本申请作进一步地详细说明。

在以下描述中,对“一个实施例”、“实施例”、“一个示例”、“示例”等等的引用表明如此描述的实施例或示例可以包括特定特征、结构、特性、性质、元素或限度,但并非每个实施例或示例都必然包括特定特征、结构、特性、性质、元素或限度。另外,重复使用短语“根据本申请的一个实施例”虽然有可能是指代相同实施例,但并非必然指代相同的实施例。

为简单起见,以下描述中省略了本领域技术人员公知的某些技术特征。

根据本申请的一个实施例,提供一种重点管控区域污染防控管理办法,如图1所示,包括

根据本申请的一个实施例,以预设时间为2021年,预设区域为成都为例对该重点管控区域污染防控管理办法的步骤进行如下具体阐述说明:

进行基础数据收集,收集成都市各个站点从13年开始至今的AQI数据,污染物数据PM10、PM2.5、SO2、CO、O3、NO2,气象数据温度、压强、相对湿度、降雨量,污染源数据移动源、车流量、工业开工数量。

将历史数据按照站点和时间进行分类及匹配,对各个站点的历史数据进行清洗。对异常值进行清理,将缺失值进行插值处理。

对已有数据进行特征工程的提取,分别从统计特征例如:AQI、6因子、气象、污染源数据的平均值、最大值、最小值、滑动窗、标准差、中位数、差分,偏度、峰度;季节特征例如:春、夏、秋、冬;时间特征例如:小时、天、月份、是否周末、第几周等方面对数据进行特征工程。

通过相关系数法和10折交叉验证选取出34个特征变量,分别为:

特征1:no2_mv_mean:NO2前12h的滑动窗口均值;

特征2:pm10_mv_mean:PM10前24h的滑动窗口均值;

特征3:pm25_mv_mean:PM2.5前24h的滑动窗口均值;

特征4:co1_mv_mean:CO1前12h的滑动窗口均值;

特征5:o3_mv_mean:O3前8h的滑动窗口均值;

特征6:aqi_mv_max:AQI前24h最大值;

特征7:pm10_der_stddev:PM10前24h一阶导数的标准差;

特征8:pm25_der_stddev:PM2.5前24h一阶导数的标准差;

特征9:no2_der_stddev:NO2前24h一阶导数的标准差;

特征10:o3_der_stddev:O3前8h滑动窗一阶导数的标准差;

特征11:co1_der_stddev:CO1前12h一阶导数的标准差;

特征12:humidity:当前时间点的相对湿度预报值;

特征13:temp:当前时间点的温度预报值;

特征14:preciptation:当前时间点的降雨量预报值;

特征15:bound_layer:边界层高度;

特征16:humid_der_stddev:相对湿度前12h一阶导数的标准差;

特征17:temp_der_stddev:温度前24h一阶导数的标准差;

特征18:precip_der_stddev:降雨量前24h一阶导数的标准差;

特征19:aqi_hour:AQI前48h最大值的小时点;

特征20:is_weekend:是否为周末;

特征21:pm10_diff12_std:PM10前12h差分级数的标准差;

特征22:pm25_diff24_std:PM2.5前24h差分级数的标准差;

特征23:no2_diff12_std:NO2前12h差分级数的标准差;

特征24:pm10_kurt:PM10的峰度;

特征25:pm25_kurt:PM2.5的峰度;

特征26:pm25_skew:PM2.5的偏度;

特征27:pm25_max:PM2.5前24h的最大值;

特征28:pm25_min:PM2.5前24h的最小值;

特征29:pm10_max:PM10前24h的最大值;

特征30:pm10_min:PM10前24h的最小值;

特征31:temp_max:温度前12h的最大值;

特征32:temp_min:温度前12h的最小值;

特征33:humid_max:相对湿度前12h的最大值;

特征34:humid_min:相对湿度前12h的最小值。

基于以上特征,将数据分为三部分,13年~18年的数据作为训练集,18年~19年的数据作为验证集,19年~20年的数据作为测试集。

训练集用于训练模型、验证集用于参数调整和优化、测试集用来验证模型出具结果的准确性。

本发明利用两种集成算法:基于bagging的随机森林模型和基于boosting的Xgboost模型,并利用两个模型的预测结果构建复合堆叠回归模型(stacking),得到最终预测结果。

在创建随机森林的时候,使用无偏估计,提供模型的泛化能力;利用随机森林对样本和特征的随机抽样性,构建不同决策树的最佳分割点,最终通过模型的投票机制获取最终的预测结果;在构建Xgboost模型时,先利用parallel learning实现对大型数据量的并行学习,随后利用weighted quantile sketch算法对较难学习的数据赋予较高的权重,最后利用approximate greedy algorithm算法快速实现树模型的构建。

利用训练集分别训练随机森林模型和Xgboost模型;对于每个模型,可以得出特征变量的权重矩阵,通过训练集和验证集的交叉验证调整参数,得到模型的最优参数;对于随机森林模型和Xgboost模型,利用测试集分别预测AQI值,并通过对比测试集的AQI实际值和预测值验证两个模型的泛化能力;利用线性回归模型,对随机森林模型和Xgboost模型输出的预测结果进行一个二次预判,来决定不同模型预测值的权重,得到最终的AQI预测值。

根据本申请的一个实施例,该重点管控区域污染防控管理办法中所述数值特征具体表述如下:数值特征主要内容是通过各个站点的历史数据进行统计和分析,结合当前站点的AQI相关因素,推断该站点下个时段可能出现的数值变化,根据不同的情况给出不同的预测和预警信息,为环保治理工作提供辅助决策。

根据本申请的一个实施例,该重点管控区域污染防控管理办法中的相关系数特征具体表述如下:基于数值特征结论的基础上,加以温度,湿度,风向,车流量等数据进行预测,结合天气预报数据,推测出未来七天内的AQI变化情况。

以上所述实施例仅表示本发明的几种实施方式,其描述较为具体和详细,但并不能理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明保护范围。因此本发明的保护范围应该以所述权利要求为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号