首页> 中国专利> 一种基于生成对抗网络的深度学习水质指标预测方法

一种基于生成对抗网络的深度学习水质指标预测方法

摘要

本发明公开一种基于生成对抗网络的深度学习水质指标预测方法,首先,将获取到的水质指标历史数据按时间排列成时间序列数据,然后通过生成对抗网络对缺失值进行插值处理。其次,再对水质指标数据进行标准化处理,将水质时间序列数据按照预设的滑动窗口大小进行划分,转为有监督的数据。最后,输入LSTM神经网络模型,进行多步预测,最终获得水质指标预测结果。

著录项

  • 公开/公告号CN112215421A

    专利类型发明专利

  • 公开/公告日2021-01-12

    原文格式PDF

  • 申请/专利权人 北京工业大学;

    申请/专利号CN202011092462.2

  • 发明设计人 毕敬;王仔超;乔俊飞;

    申请日2020-10-13

  • 分类号G06Q10/04(20120101);G06Q10/06(20120101);G06Q50/26(20120101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11203 北京思海天达知识产权代理有限公司;

  • 代理人张慧

  • 地址 100124 北京市朝阳区平乐园100号

  • 入库时间 2023-06-19 09:32:16

说明书

技术领域

本发明属于污水处理技术领域,尤其涉及一种基于生成对抗网络的深度学习水质指标预测方法。

背景技术

水质指标可以作为水污染程度判断的标准尺度。通过水质自动监测站采集水质指标数据,并对采集到的水质指标时间序列数据进行分析和预测,能够提前获得水质指标的变化趋势,进而为水资源的管理与决策提供支持。水质指标变化受诸多因素影响,如物理、化学、生物等,且水质预测变量之间存在复杂的非线性关系,没有特定的周期性和稳定性。传统的水质指标预测方法普遍采用机理模型或线性模型对水质指标进行预测。机理模型是通过求解数学方程来求解不同时刻不同位置的污染物浓度,需要的参数较多,且难以获得,建模过程复杂;而线性模型缺乏对水质指标非线性特征的分析,对非线性的关系存在局限性,限制了预测的精确度。另一方面,由于传感器的收集频率不同,导致水质指标两次有效观测值之间的时间间隔不一致,并且传感器可能出现损坏,或在传感器网络传输的过程中出现数据丢失的情况,导致有较多的缺失值,而传统插值方法难以对水质指标的时间序列进行有效地处理。

近年来随着数据量的增多,深度学习越来越成为时间序列预测的主流算法,广泛应用于水质环境中。深度学习,是更加自动化的机器学习方法,它能通过非线性函数将原始数据进行组合,转化为更高层次、更抽象的数据表示,充分挖掘变量之间的关系。一般的深度网络,在处理时间序列数据时,不考虑相邻数据之间的相关性,而循环神经网络(Recurrent Neural Network,RNN)则考虑到这一点,将前一时刻的神经单元的隐藏状态作为当前时刻的神经单元输入的一部分,形成反馈系统,有效地利用了数据之间的相关性,更适合时间序列数据的分析,大大提高了时间序列的预测精度。长短期记忆网络(LongShort-Term Memory,LSTM)是一种特殊的RNN模型,它解决了RNN不能处理长期依赖的问题,增强模型的预测能力。

发明内容

针对以上现有技术的不足,本发明提供一种基于生成对抗网络(GenerativeAdversarial Networks,GAN)插值与基于Professor Forcing模式训练的LSTM神经网络的水质指标预测方法。包括:基于GAN插值的水质时间序列预处理方案;基于ProfessorForcing模式训练的LSTM模型实现水质指标多步预测。本发明的目的通过以下技术方案来实现。

一种基于生成对抗网络的深度学习水质指标预测方法,该方法包括如下的步骤:

1)获取一条河流过去一段时间内由水质指标监测值组成的时间序列数据;

2)通过GAN对数据进行插值处理;

3)在2)的基础上,将处理后的数据进行标准化,再按预设的滑动窗口大小划分为多个特征序列,进而序列转化为有监督数据,之后划分训练集、验证集、测试集;

4)在3)的基础上,将特征序列数据输入LSTM模型中,输出水质指标的未来一段时间的多个预测值;

5)在4)的基础上,对这些预测值进行反标准化,从而获得真正的未来的水质指标预测值。

附图说明

图1一种基于生成对抗网络的深度学习水质指标预测方法组成示意图;

图2GAN插值结构图;

图3Professor Forcing训练模式结构图。

具体实施方式

下面将参照附图来描述根据本发明实施例的一种基于GAN插值与ProfessorForcing训练的LSTM模型的水质指标预测方法,具体步骤如下:

第一步,获取一条河过去一段时间内由水质指标监测值组成的时间序列数据。

由于水质自动监测系统实际的监测频次在不同指标之间可能不一致,但通常为每4小时监测一次,因此在数据预处理阶段,统一调整为4小时等间隔的数据。

第二步,将水质指标时间序列数据用GAN插值预处理。

由于水质自动监测系统实际的监测频率不同指标之间可能存在不同,并且传感器可能损坏监测不到数据或是传感器网络传输的过程丢失数据,从而产生了比较多的缺失值。传统的插值方法分为删除策略、基于统计量填充、基于机器学习填充,这些方法没有关注时间信息,因此使用基于GAN的插值方法。图2为GAN插值结构图。GAN插值的原理如下:

由于数据不完整导致两次有效观测值之间的时间间隔变化十分大,传统的GRU或LSTM单元不太适合这种场景,为了解决不规则时间间隔并且学习隐藏的信息,本发明使用一种特殊的,能够学习时间间隔不一致的变量之间关系的RNN单元,称为GRUI(GRUImputed)。其基本思想是如果变量缺失了一段时间,则过去的观测值的影响应随时间衰减,GRUI能够拟合过去数据的影响衰减。

首先,通过一个时间间隔矩阵δ去记录两个有效观测值之间的时间间隔,公式如下:

其中,M为Mask矩阵,

有了时间间隔矩阵δ之后,可以得到时间衰减向量β,用于控制过去观测值随时间的衰减,其范围通过指数函数控制在[0,1]之间,公式如下:

其中,w

有了衰减向量β之后,更新GRU的隐藏单元时,通过衰减向量控制过去观测值的影响随时间增加而降低,更新过程如下:

本网络与一般GAN的区别在于,本网络的目的是填充不完整的时间序列数据x,而不是单纯的只想生成符合分布的数据。因此尽管生成的样本符合真实样本分布,但是随机噪声z是从隐空间随机取样的,这意味着生成的样本可能随着z的改变而发生很大的变化,因此试图从隐空间找到一个最佳的随机向量z,让生成样本G(z)尽可能地接近真实样本x。

通过真实样本x和生成样本G(z)之间的平方误差来表示重构误差(Reconstruction loss),表明G(z)和x之间的差距。

Lr(z)=||x⊙M-G(z)⊙M||

生成网络的目的是让生成样本尽可能接近真实分布,而生成网络生成的样本的真实程度只能通过判别网络的结果获得,因此在训练生成网络时,联合判别网络的结果才能训练,其损失函数为:

因此,生成网络的损失函数由两部分组成:

L

其中,L

判别网络的损失函数为:

在模型收敛后,用生成样本G(z)去代替原始样本x中的缺失值。

第三步,标准化处理,并通过滑动窗口划分特征序列数据

1)对上一步处理后的数据进行标准化。具体的公式如下:

其中,x

2)滑动窗口宽度设定为输入时间序列长度和预测时间序列的长度之和,使用滑动窗口截取输入值和预测值,进而将其转化为有监督数据。

第四步,基于Professor Forcing模式训练LSTM模型

本发明使用一种特殊的训练方式(Professor Forcing)来训练LSTM模型。

传统的RNN模型在处理长期以来问题存在一定的限制,这是因为反向传播的过程中梯度会出现连乘项,如果连乘项过多会引起梯度消失或梯度爆炸。梯度消失会导致之前的输入不会参与到参数更新,即前面时刻的信息缺失,参数的更新只与最近几个输入有关,因此不能处理长期依赖问题。于是提出了LSTM模型用来解决长期依赖问题。一个LSTM单元包括一个记忆单元(Cell)和三个门控制单元(输入、输出和遗忘门),通过三个门来对记忆进行修改,具体可以用以下几个公式描述:

f

i

o

h

将⊙代表点乘,W

传统的RNN训练方法有自由运行(Free Running)和教师约束(Teacher Forcing)两种:

Free Running基本思想是上一时刻隐藏单元的输出,作为下一个隐藏单元的输入。缺点在于训练过程中容易产生错误爆炸,从而导致收敛速度慢,很难收敛到最优解,学习能力较差,从而训练的模型多步预测能力十分有限。

Teacher Forcing基本思想是直接用训练数据的标准答案(Ground Truth)作为输入,从而使RNN的输出更接近真实序列,并且能够加快模型的收敛,因为每一步都有GroundTruth的纠正。但缺点在于跨域(Cross-domain)能力差,即只有训练时真实数据是可用的,在预测时没有真实数据进行约束,只能通过Free Running进行多步预测。在预测时如果产生错误爆炸,使得输出不再符合训练集的分布,会导致预测精度十分有限。

Professor Forcing是为解决两种模式的缺点而提出的方法。基本思想是使Teacher Forcing模式训练的网络和Free Running模式训练的网络的行为,即隐藏层的状态,尽可能的接近。从而能够加快收敛,增强模型的学习能力,增强预测能力,并且使FreeRunning在进行多步预测时,输出更加接近真实分布,允许RNN继续预测远远超过训练期间的时间序列长度。

Professor Forcing方法可以通过对抗的方式实现,这正是生成对抗网络的作用使生成网络生成的样本与真实样本不可区分:

判别网络的损失函数为:

L

其中,y为要预测的水质指标,T(·)为Teacher Forcing模式训练的网络的行为,F(·)为Free Running模式训练网络的行为。

生成网络的损失函数分为两部分,第一部分是Teacher Forcing训练模式网络的损失函数,具体如下:

第二部分是为了使得两种网络的行为不可区分,因此使Free Running的网络行为接近Teacher Forcing网络的行为。损失函数代表两种网络行为的接近程度,具体如下:

L

也可以使用非对抗的方法训练,如直接将Teacher Forcing和Free Running网络行为的误差作为损失函数。优点是省去了判别器的开销,缺点是收敛结果不如对抗方式。

还有混合两种输入,通过计划采样,在训练的过程中以概率p选取真实值作为下一步输入,1-p的概率用上一步输出作为下一步输入,并且逐渐减小概率p,缺点也是收敛结果不如对抗方式。

在验证集上测试模型的性能,并进行参数调整。首先,固定历史序列长度,分析神经元个数对模型预测效果的影响。之后固定神经元个数,分析不同历史序列长度对模型的预测效果的影响。如果时间序列长度过长,则会导致时间序列包含过多过去的信息,并且随着时间的变化,水质环境可能发生较大变化,引入过大的噪声,从而降低预测的精度;若时间序列过短,则可能会缺少必要的信息使得预测精度不够。最终获取参数效果最佳的模型。

该水质指标预测模型可用于pH值、氨氮(NH3-N)、溶解氧(DO)、高锰酸盐指数(CODMN)等水质指标的预测,为水质预警和水污染治理提供数据支持。

应当理解,以上借助优选实施例对本发明的技术方案进行的详细说明是示意性的而非限制性。本领域的普通技术人员在阅读本发明说明书的基础上可以对各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,然而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号