公开/公告号CN112966891A
专利类型发明专利
公开/公告日2021-06-15
原文格式PDF
申请/专利号CN202110091465.2
申请日2021-01-23
分类号G06Q10/06(20120101);G06Q10/04(20120101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);G01N33/18(20060101);
代理机构44631 广东省畅欣知识产权代理事务所(普通合伙);
代理人耿佳
地址 610072 四川省成都市青羊区芳邻路8号
入库时间 2023-06-19 11:26:00
技术领域
本发明涉及水环境预测领域,具体是一种河流水环境质量预测方法。
背景技术
目前,常用的水质数学模型主要包括两大类:水质机理数学模型和水质数据驱动类数学模型,而常用的基于理论基础的水质机理数学模型,在模型应用时需要大量且合适的历史水文水质数据来率定模型参数,同时当影响某水质指标的影响因素较多时,机理会变得非常复杂,会使模型难以建立、相关的参数难以获取;近年来,在大数据研究的快速发展下,基于样本数据为基础,以灰箱或黑箱方程为手段数据驱动模型已经被众多学科广泛应用,同样数据驱动模型在河流水质预测预警中也得到了运用,但现有的水质数据驱动类数学模型大多数采用单一静态模型进行水质预测预警,它的适用性和模拟精度还远远不足,无法满足更多人的需求。
发明内容
本发明所要解决的技术问题是提供一种河流水环境质量预测方法,可以有效解决上述背景技术中提出的问题。
为解决上述问题,本发明所采取的技术方案是:一种河流水环境质量预测方法,包括以下步骤:
S1、模型初始化:通过与在线监测设备不同水质指标传感器建立通信,获得在线数据;
S2、获得水质指标历史监测值:对监测水体、监测断面、监测水质指标进行One-HotEncoding独热编码;
S3、水质指标特性提取:通过对水质指标历史监测值进行相关性分析、因子分析、聚物分析:
3-1、相关性分析:对监测断面、监测水质指标进行水质指标相关性分析,获得各监测断面监测水质指标相关关系;
3-2、因子分析:对监测断面、监测水质指标进行水质指标因子分析,获得各监测断面及监测水质指标主要因子;
3-3、聚类分析:通过主要因子数对监测断面、监测时间进行聚类分析,获得各监测断面、监测时间类别;
3-4、选择分析后的监测断面、监测时间、监测水质指标;
S4、模型训练:对通过相关性分析、聚类分析得到的监测断面、监测水质分别进行SARIMA、ANN、LSTM算法模拟预测,将算法预测得到的数据与相对应的水质指标数据进行对比;
S5、分别统计SARIMA、ANN、LSTM算法模拟精度,判断SARIMA、ANN、LSTM算法预测模型误差率是否小于设定阈值的30%;如果预测模型误差率小于设定阈值的30% ,则归于优化模型池,直接进行下一步;如果预测模型误差率大于设定阈值的30% ,则归于休眠模型池;
S6、根据模拟精度,确定优化模型池中最优模型,判断SARIMA、ANN、LSTM算法预测模型是否重新优化参数,如果优化模型池中最优模型误差率大于设定阈值的30%,则返回S4,重新进行SARIMA、ANN、LSTM算法预测模型模型训练,优化参数;如果优化模型池中最优模型误差率小于设定阈值的30%,则直接进行下一步;
S7、水质预测实时运用时,采用双线程法,水质预测采用最优模型进行实时预测预警,同时采用其他算法模拟;
S8、统计水质预测实时运用优化模型池中模型模拟精度,同时动态跟踪预测精度调整最优预测模型;
S9、重复统计水质预测实时运用优化模型池中模型模拟精度,且同时动态跟踪预测精度调整最优预测模型,将水质预测进行实时运用。
作为本发明的进一步优选方案,水质特征提取是通过因子分析、聚类分析、相关性分析,将水质变化相似的监测断面视为一类,分析这类监测断面对应主要污染指标以及主要污染指标相关联指标;将主要污染指标与相关性指标一起都作为输入指标,通过指标之间的联系以及时间序列前后数据的相关性进行主要污染指标的预测,从而提高预测精度。
作为本发明的进一步优选方案,所述聚类分析采用欧氏距离d,第
式中:
作为本发明的进一步优选方案,所述因子分析由下式表示:
式中:
作为本发明的进一步优选方案,皮尔逊相关系数的计算公式如下:
相关系数的显著性检验,用样本相关系数r作为总体相关系数ρ的估计值,而r仅说明样本数据的X与Y的相关程度。
作为本发明的进一步优选方案,所述训练模型是将历史水质数据随机拆分为不均等两份,多的部分数据作为训练集,少的为测试集;在训练集中建立的SARIMA、ANN、LSTM算法模型;将模型作用于测试集,实时反馈测试结果并进行不断的模型优化。
作为本发明的进一步优选方案,选择最优预测模型通过SARIMA、ANN、LSTM算法模型的训练及预测,计算三种模型的预测值与实际值的平均误差率、均方根误差,且根据预测值n的增加动态更新,模型的预测值与实际值均方根误差和平均误差率越小,则模型越好:
平均误差率=
均方根误差=
其中:
Xi表示模型预测值;
Yi表示实际预测值;
n表示预测值的个数,且随着动态更新。
与现有技术相比,本发明提供了一种河流水环境质量预测方法,具备以下有益效果:
该方法能够动态跟踪预测精度,并调整最优预测模型的河流水环境质量,通过进行水质指标相关性分析、因子分析以及聚类分析,针对不同水体,如:河流、湖库;针对不同水质指标,如:溶解氧、氮、磷、COD,运用SARIMA、ANN、LSTM算法模拟,同时动态跟踪预测精度,调整最优预测模型;大大的提高了河流水环境质量预测方法实际应用时的适用性和模拟精度。
附图说明
图1为本发明方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
本发明提供一种河流水环境质量预测方法,包括以下步骤:
S1、模型初始化:通过与在线监测设备不同水质指标传感器建立通信,获得在线数据;
S2、获得水质指标历史监测值:对监测水体、监测断面、监测水质指标进行One-HotEncoding独热编码;
S3、水质指标特性提取:通过对水质指标历史监测值进行相关性分析、因子分析、聚物分析:
3-1、相关性分析:对监测断面、监测水质指标进行水质指标相关性分析,获得各监测断面监测水质指标相关关系;
3-2、因子分析:对监测断面、监测水质指标进行水质指标因子分析,获得各监测断面及监测水质指标主要因子;
3-3、聚类分析:通过主要因子数对监测断面、监测时间进行聚类分析,获得各监测断面、监测时间类别;
3-4、选择分析后的监测断面、监测时间、监测水质指标;
S4、模型训练:对通过相关性分析、聚类分析得到的监测断面、监测水质分别进行SARIMA、ANN、LSTM算法模拟预测,将算法预测得到的数据与相对应的水质指标数据进行对比;
S5、分别统计SARIMA、ANN、LSTM算法模拟精度,判断SARIMA、ANN、LSTM算法预测模型误差率是否小于设定阈值的30%;如果预测模型误差率小于设定阈值的30% ,则归于优化模型池,直接进行下一步;如果预测模型误差率大于设定阈值的30% ,则归于休眠模型池;
S6、根据模拟精度,确定优化模型池中最优模型,判断SARIMA、ANN、LSTM算法预测模型是否重新优化参数,如果优化模型池中最优模型误差率大于设定阈值的30%,则返回S4,重新进行SARIMA、ANN、LSTM算法预测模型模型训练,优化参数;如果优化模型池中最优模型误差率小于设定阈值的30%,则直接进行下一步;
S7、水质预测实时运用时,采用双线程法,水质预测采用最优模型进行实时预测预警,同时采用其他算法模拟;
S8、统计水质预测实时运用优化模型池中模型模拟精度,同时动态跟踪预测精度调整最优预测模型;
S9、重复统计水质预测实时运用优化模型池中模型模拟精度,且同时动态跟踪预测精度调整最优预测模型,将水质预测进行实时运用。
作为本发明的进一步优选方案,水质特征提取是通过因子分析、聚类分析、相关性分析,将水质变化相似的监测断面视为一类,分析这类监测断面对应主要污染指标以及主要污染指标相关联指标;将主要污染指标与相关性指标一起都作为输入指标,通过指标之间的联系以及时间序列前后数据的相关性进行主要污染指标的预测,从而提高预测精度。
作为本发明的进一步优选方案,所述聚类分析采用欧氏距离d,第
式中:
作为本发明的进一步优选方案,所述因子分析由下式表示:
式中:
作为本发明的进一步优选方案,皮尔逊相关系数的计算公式如下:
相关系数的显著性检验,用样本相关系数r作为总体相关系数ρ的估计值,而r仅说明样本数据的X与Y的相关程度。
作为本发明的进一步优选方案,所述训练模型是将历史水质数据随机拆分为不均等两份,多的部分数据作为训练集,少的为测试集;在训练集中建立的SARIMA、ANN、LSTM算法模型;将模型作用于测试集,实时反馈测试结果并进行不断的模型优化。
作为本发明的进一步优选方案,选择最优预测模型通过SARIMA、ANN、LSTM算法模型的训练及预测,计算三种模型的预测值与实际值的平均误差率、均方根误差,且根据预测值n的增加动态更新,模型的预测值与实际值均方根误差和平均误差率越小,则模型越好:
平均误差率=
均方根误差=
其中:
Xi表示模型预测值;
Yi表示实际预测值;
n表示预测值的个数,且随着动态更新。
作为本发明的一个具体实施例:
首先对模型进行初始化,与在线监测设备不同水质指标传感器建立通信,获得在线数据,通过在线数据得到水体中的不同水质指标浓度;然后对监测水体、监测断面、监测水质指标进行One-Hot Encoding独热编码,获得水质指标历史监测值;进行水质特性提取,对监测断面、监测水质指标进行水质指标相关性分析,获得各监测断面与监测水质指标相关关系;对监测断面、监测水质指标进行水质指标因子分析,获得各监测断面及监测水质指标的主要因子,通过主要因子数对监测断面、监测时间进行聚类分析,获得各监测断面、监测时间类别;对相关性分析及聚类分析后的监测断面、监测水质指标分别进行SARIMA、ANN、LSTM算法模拟预测,将算法预测得到的数据与相对应的水质指标数据进行对比,然后分别统计SARIMA、ANN、LSTM算法模拟精度,并判断SARIMA、ANN、LSTM算法预测模型误差率是否小于设定阈值的30%;如果预测模型误差率小于设定阈值的30% ,则归于优化模型池,直接进行下一步;如果预测模型误差率大于设定阈值的30% ,则归于休眠模型池;然后根据模拟精度,确定优化模型池中最优模型,判断SARIMA、ANN、LSTM算法预测模型是否重新优化参数,如果优化模型池中最优模型误差率大于设定阈值的30%,则返回S4,重新进行SARIMA、ANN、LSTM算法预测模型模型训练,优化参数;如果优化模型池中最优模型误差率小于设定阈值的30%,则直接进行下一步;在水质预测实时运用时,采用双线程法,水质预测采用最优模型进行实时预测预警,且同时采用其它算法模拟;最后重复统计水质预测实时运用SARIMA、ANN、LSTM算法模拟精度,同时将动态跟踪预测精度调整最优预测模型,进行水质预测实时运用。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。
机译: 信息处理装置,河流水位预测方法和河流水位预测程序
机译: 河流水量预测方法
机译: 河流水量预测方法