首页> 中国专利> 生态环境数据质量控制方法

生态环境数据质量控制方法

摘要

本发明提供一种生态环境数据质量控制方法,包括以下步骤采集生态环境监测数据,得到原始监测数据;使用训练好的LSTM神经网络作为分类器,对原始监测数据进行分类,得到生态环境监测质控数据。LSTM神经网络分类器的训练过程如下,将某一类指标在某一个时间点测得的原始监测数据作为神经网络的输入,将自动标注得到的标注数据作为神经网络的输出;使用贝叶斯优化的方式进行自动调参。本发明可以解决现有技术中存在的在对生态环境监测时,从监测站点直接获取的原始监测数据,数据的真实性相对较低、质量不高的技术问题。

著录项

  • 公开/公告号CN112598050A

    专利类型发明专利

  • 公开/公告日2021-04-02

    原文格式PDF

  • 申请/专利权人 四川省成都生态环境监测中心站;

    申请/专利号CN202011510297.8

  • 发明设计人 李翔;翟世明;刘子健;阎静;

    申请日2020-12-18

  • 分类号G06K9/62(20060101);G06N3/04(20060101);G01D21/02(20060101);

  • 代理机构50236 重庆鼎慧峰合知识产权代理事务所(普通合伙);

  • 代理人安莉

  • 地址 610066 四川省成都市锦江区海桐街69号

  • 入库时间 2023-06-19 10:27:30

说明书

技术领域

本发明涉及数据处理方法技术领域,具体涉及一种生态环境数据质量控制方法。

背景技术

2016年3月,我国环保部发布了《生态环境大数据建设总体方案》,为环保系统开展生态环境大数据建设提供了强有力的政策支撑和技术框架。目前在对生态环境的监督管理中,大数据技术已经逐步体现出了优势。因为对生态环境的污染,其产生的原因会受到多方面的影响;环境污染涉及的过程复杂,污染成因多样化,影响污染的因素多,各种因素之间又存在相互重叠、相互交叉。因此,仅仅靠传统单因素分析的方法,采用单独或分类治理的方案,不能解决生态环境污染的根本问题。这样就需要通过采用多元数据同化、多尺度数据耦合等大数据技术,对各种生态环境的污染及其相关数据进行多因素融合分析,更为及时准确的发现产生各种生态环境污染问题的根源。

但是在实际运用中,生态环境大数据却具有相对较高的不确定性,从监测站点直接获取的原始监测数据,其真实性相对较低,质量不高。这是因为从数据的真实性来看,虽然应用于生态环境监测领域的各种传感器监测精度都很高,但这些仪器往往会顺带记录大量的周边环境数据,而我们需要的数据却可能会淹没在大量数据中。

鉴于对对生态环境大数据的数据质量要求,需要对从监测站点直接获取的原始监测数据进行预处理和质量控制,为后续的生态环境监督管理提供高质量的数据作为支撑。

发明内容

针对现有技术存在的不足,本发明提出一种生态环境数据质量控制方法,以解决现有技术中存在的在对生态环境监测时,从监测站点直接获取的原始监测数据,数据的真实性相对较低、质量不高的技术问题。

本发明采用的技术方案是,一种生态环境数据质量控制方法

在第一种可实现方式中,包括以下步骤:

采集生态环境监测数据,得到原始监测数据;

使用训练好的LSTM神经网络作为分类器,对原始监测数据进行分类,得到生态环境监测质控数据。

结合第一种可实现方式,在第二种可实现方式中,生态环境监测数据包括水质监测数据、空气质量监测数据、土壤监测数据、固体废物监测数据、微生物监测数据、噪声监测数据、电磁辐射监测数据、放射性监测数据、热监测数据、光监测数据。

结合第二种可实现方式,在第三种可实现方式中,水质监测数据包括酸碱度、重金属、阴离子表面活性剂。

结合第二种可实现方式,在第四种可实现方式中,水质监测数据包括酸碱度、重金属、阴离子表面活性剂。

空气质量监测数据包括PM2.5、PM10、一氧化碳、氮氧化物、二氧化硫、臭氧。

结合第二种可实现方式,在第五种可实现方式中,噪声监测数据包括噪声值、监测时段。

结合第一种可实现方式,在第六种可实现方式中,LSTM神经网络的训练过程如下:

将原始监测数据作为神经网络的输入,将标注数据作为神经网络的输出;

使用贝叶斯优化的方式进行自动调参。

结合第六种可实现方式,在第七种可实现方式中,使用贝叶斯优化的方式进行自动调参,具体如下:

选定需优化的超参数集合,设定LSTM通道隐藏层数、Conv1D通道隐藏层数、

各隐藏层卷积核单元数、Conv1D各隐藏层卷积步长、随机丢弃单元比例、设定分类器全连接单元数、训练批次、激活函数、权重偏离参数;

设定贝叶斯模型参数,贝叶斯模型参数包括贝叶斯模型尝试轮次、优化算法、最优化目标函数;

贝叶斯模型自动根据搜索空间选取参数组合,针对该参数组合进行训练,并求得最优化目标函数值;

比较最优化目标函数值以及深度学习预测精准度,选出并记录最优的参数组合。

结合第七种可实现方式,在第八种可实现方式中,LSTM通道隐藏层数为8-12均匀分布;

Conv1D通道隐藏层数为8-12均匀分布;

Conv1D各隐藏层卷积核单元数为256-512-1024随机分布;

Conv1D各隐藏层卷积步长为5-8随机分布;

随机丢弃单元比例为20%-40%正态分布;

分类器全连接单元数为8-256均匀分布;

训练批次为128、256或512;

激活函数为RELU或THAN;

权重偏离参数为0-0.000001随机分布。

结合第七种可实现方式,在第九种可实现方式中,贝叶斯模型尝试轮次为100-200次;

优化算法为树状结构Parzen估计方法;

最优化目标函数为深度学习测试集损失函数VAL_LOSS*-1。

由上述技术方案可知,本发明的有益技术效果如下:

1.通过LSTM神经网络分类器,可以实现对原始监测数据的分类;将符合标准规范要求的原始监测数据作为生态环境监测质控数据,将在标准规范要求之外原始监测数据剔除;使用预处理的方式解决了从监测站点直接获取的原始监测数据,数据的真实性相对较低,质量不高的问题。

2.构建X集合的过程、LSTM神经网络的超参数都使用贝叶斯算法进行优化,不需要人工不停调参、不停的进行主因子分析,这样可以大量节约人力,并且能得到更精准的超参数。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。

图1为本发明方法流程图;

图2为本发明LSTM神经网络训练流程图;

图3为本发明贝叶斯优化调参流程图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。

需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

实施例1

本发明提供一种生态环境数据质量控制方法

在第一种可实现方式中,包括以下步骤:

采集生态环境监测数据,得到原始监测数据;

使用训练好的LSTM神经网络作为分类器,对原始监测数据进行分类,得到生态环境监测质控数据。

以下对实施例1工作原理进行详细说明:

1、采集生态环境监测数据,得到原始监测数据

目前,环境监测的对象包括水质监测、空气质量监测、土壤监测、固体废物监测、微生物监测、噪声监测、电磁辐射监测、放射性监测、热监测、光监测等。其中最主要的监测数据如下:

空气质量监测数据,一般监测的对象为PM2.5、PM10、一氧化碳、氮氧化物、二氧化硫、臭氧等;

水质监测数据,一般监测的对象为酸碱度、重金属、阴离子表面活性剂等;

噪声监测数据,一般监测的对象为噪声值、监测时段等。

首先,对上述生态环境的监测数据进行采集,采集的方式不作限定,以现有技术能实现即可,在本实施例中举例说明。比如:对于空气质量监测,可选用空气和废气监测仪器;对于水质监测数据,可选用污染源和环境水质监测仪器,等等。采集到的数据为原始监测数据,通过通信网络传输到远程平台,远程平台不作限定,可以是一种生态环境管理系统。

对于原始监测数据,可以通过判断其真实性来衡量数据的质量高低。一般来说,原始监测数据异常,最为常见的是下述两种情况:

第一种情况是对于同一个监测点,使用了多台监测设备,但是多台监测设备各自测得的监测数据之间有冲突。比如:对于某一个监测点,同时有2台监测设备的监测范围可以覆盖该监测点。这样在同一时间段,2台监测设备就会对这一个监测点,就会采集到2个监测数据。而对于同一个指标,这2个监测数据可能是不一致,比如第1台为50,第二台为60。采用传统的人为判断,不好分辨出哪一个数据一定是对的,哪一个数据一定是错的,因为不同监测设备的精度不完全一致。但同一台设备监测得到的数据,其相对于标准值的正负误差,基本是恒定的。比如设备A的监测数据相对于标准值始终是负5~10%,单设备A的某一些监测数据,相对于标准值负20%,那就说明设备A的这一些监测数据可能有问题。

第二种情况是两种不同指标的监测数据,这两种监测数据之间的关系不符合常理。比如在同一时间同一地点,使用同一台设备测得的PM2.5的值大于PM10的值,而实际情况是因PM10中包含了PM2.5,所以PM2.5的值肯定是小于PM10的值。

2、使用训练好的LSTM神经网络作为分类器,对原始监测数据进行分类,得到生态环境监测质控数据

对于大量的原始监测数据,可以使用训练好的深度神经网络模型作为分类器,对原始监测数据进行分类,将异常的原始监测数据剔除,得到质量合格的生态环境监测质控数据,具体如下:

首先,建立一个深度神经网络模型。在本实施例中,选用LSTM神经网络(长短期记忆网络),LSTM神经网络通过当前输入及上一时刻的输出来得到当前输出,可以利用上一时刻学习到的信息进行当前时刻的学习。选用LSTM神经网络可以将各种监测原始数据在时序上实现相关联,便于对神经网络模型进行训练。比如:对于某一类指标在某一个时间点采集到的原始监测数据,可以关联其在时序上、前后时间点的原始监测数据,判断这个数据是否偏离了监测值的正常波动范围。

在训练时,将某一类指标在某一个时间点测得的原始监测数据作为神经网络的输入,将自动标注得到的标注数据作为神经网络的输出。对于生态环境数据,因为有国家标准,所以各类生态环境数据从定义来看就会有一定的合理范围区间,而如果这个数据是偏高的、偏低的、超出范围的,则说明该数据是不合理的。对于LSTM神经网络的训练,将部分原始监测数据作为训练集,在训练时,数据是从训练集里随机取出来的,神经网络的输出Y就是对数据的结论。这个Y在训练前期需要人为打上标注,但标注时因为有一整套根据国家标准得出的判断规则,所以标注是一种根据规则的自动标注的过程。具体的,可以通过映射关系表进行自动标注。

对于深度神经网络的调参,是一个比较复杂和耗时的过程,通常情况下需要人工开展大量的工作,进行多次尝试。调参目的是为了得到神经网络本身的超参数,比如:网络有多少层,每个层上有多少个节点,每个节点的正则化参数,权重偏离,批次大小;当网络的多种X作为输入时,哪种X会对最后的输出Y会造成最大的影响。

在本实施中,使用贝叶斯优化的方式,进行自动调参。贝叶斯定理公式如下:

使用贝叶斯优化进行自动调参,是基于数据使用贝叶斯定理估计目标函数的后验分布,然后再根据分布选择下一个采样的超参数组合。它充分利用了前一个采样点的信息,其优化的工作方式是通过对目标函数形状的学习,并找到使结果向全局最大提升的参数。使用LSTM神经网络可以很好地将前一个采样点和后一个采样点之间关联起来。使用贝叶斯优化进行自动调参,具体的过程如下:

首先,选取并设定需优化的超参数集合,搜索范围如下:

设定LSTM通道隐藏层数为8-12均匀分布;

设定Conv1D通道隐藏层数为8-12均匀分布;

设定Conv1D各隐藏层卷积核单元数为256-512-1024随机分布;

设定Conv1D各隐藏层卷积步长为5-8随机分布;

设定随机丢弃单元比例为20%-40%正态分布;

设定分类器全连接单元数为8-256均匀分布;

设定训练批次为128、256或512;

设定激活函数为RELU或THAN;使用上述激活函数在训练时没有饱和区,不存在梯度消失问题;没有复杂的指数运算,计算简单、效率提高;实际收敛速度较快;

设定权重偏离参数为0-0.000001随机分布。

其次,设定贝叶斯模型参数并进行训练:

设定贝叶斯模型尝试轮次为100-200次;

设定优化算法为树状结构Parzen估计方法(TPE,Tree-structured ParzenEstimator Approach);相较于其他贝叶斯优化算法,TPE的计算速度更快。

设定最优化目标函数为深度学习测试集损失函数VAL_LOSS*-1;损失函数VAL_LOSS*-1在训练过程中可微调,便于回归。

开始进行贝叶斯优化训练。

然后,自动选取最优化参数组合:

贝叶斯模型自动根据搜索空间选取参数组合;

针对该参数组合进行训练,并求得最优化目标函数值;

比较最优化目标函数值,以及深度学习预测精准度;

若最优化目标函数优于之前,则选择该超参数组合;

以当前的组合开始,重复本步骤(第三步),直到选出最优的参数组合。

最后,记录选出最优的参数组合。

在本实施例中,对于生态环境数值使用LSTM神经网络作为分类器时,采用上述使用贝叶斯优化进行自动调参的技术方案对LSTM神经网络进行超参数优化,举例说明如下:

{'Activation':'relu','Conv1D_cells':11,'Conv1D_filters1':512,'Conv1D_filters10':256,'Conv1D_filters11':256,'Conv1D_filters2':256,'Conv1D_filters3':1024,'Conv1D_

filters4':512,'Conv1D_filters5':256,'Conv1D_filters6':512,'Conv1D_filters7':256,'Conv1D_filters8':256,'Conv1D_filters9':1024,'Conv1D_kernel_size1':8,'Conv1D_kernel_size10':8,'Conv1D_ke

rnel_size11':5,'Conv1D_kernel_size2':8,'Conv1D_kernel_size3':8,'Conv1D_kernel_size4':8,'Conv1D_kernel_size5':5,'Conv1D_kernel_size6':8,'Conv1D_kernel_size7':5,'Conv1D_kernel_size8':5,'

Conv1D_kernel_size9':8,'Dense1':256,'Dense2':64,'Dense3':8,'LSTM1':1024,'LSTM10':256,'LSTM11':512,'LSTM2':256,'LSTM3':256,'LSTM4':1024,'LSTM5':256,'LSTM6':256,'LSTM7':1024,'L

STM8':1024,'LSTM9':512,'LSTM_cells':8,'batch_size':128,'dropout1':0.29775878953166957,'out':3,'weight_decay':8.524963244383268e-07}

构建X集合的过程、LSTM神经网络的超参数都使用贝叶斯算法进行优化,这样可以大量节约人力,并且能得到更精准的超参数。

这样通过上述技术方案,将多个原始监测数据分为训练集和验证集,通过深度学习的方式对LSTM神经网络进行训练,得到LSTM神经网络分类器,该分类器为一个神经网络模型,可以判断出哪些生态环境数据是符合标准规范要求的,哪些是在标准规范要求之外的,可以实现对原始监测数据的分类;将符合标准规范要求的原始监测数据作为生态环境监测质控数据,将在标准规范要求之外原始监测数据剔除。剔除的原始监测数据可保留在数据库的其它空间,以备他用。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号