首页> 中国专利> 基于多视图学习的时空缺失数据补全方法、装置及介质

基于多视图学习的时空缺失数据补全方法、装置及介质

摘要

本发明公开了一种基于多视图学习的时空缺失数据补全方法、装置及介质,该方法针对海量多类型的环境监测数据集,对其中的每个数据缺失监测站点构建包含监测站点、监测时间、监测参数三个维度的数据张量,并分解出三个混合视图矩阵,运用矩阵完备算法对构建的三个混合视图从局部和全局尺度进行缺失数据估算,再基于人工深度神经网络进行多视图学习,得到最终监测参数缺失值的估算结果。本发明能够实现环境监测数据集的缺失值补全,在海洋环境监测、智慧城市发展等领域具有重要的意义。

著录项

  • 公开/公告号CN113806349A

    专利类型发明专利

  • 公开/公告日2021-12-17

    原文格式PDF

  • 申请/专利权人 浙江大学;

    申请/专利号CN202111369399.7

  • 申请日2021-11-18

  • 分类号G06F16/215(20190101);G06F16/29(20190101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构33200 杭州求是专利事务所有限公司;

  • 代理人傅朝栋;张法高

  • 地址 310058 浙江省杭州市西湖区余杭塘路866号

  • 入库时间 2023-06-19 13:45:04

说明书

技术领域

本发明涉及地理信息(GIS)技术领域,具体涉及一种基于人工神经网络实现时空大数据中缺失值补全方法。

背景技术

随着“空天地海”立体观测技术的快速发展,高精度、高频度、大覆盖的具有时空属性的大数据快速积累并形成海量多类型对地观测时空数据集。与此同时,数据缺失所带来的时空建模不精准、分析预测不及时等问题给灾害预警、城市监测等研究带来了巨大的挑战。以近岸浮标数据为例,基于浮标系统的海洋环境监测具有高频,实时和低成本等特点,观测数据可实时传输回数据中心,使相关工作人员能够及时观察和了解水域状况,甚至有助于提供诸如藻华和海啸等海洋灾害的预警。但是,由于传输错误、传感器故障和设备维护等原因,数据缺失的情况也时有发生。这些缺失值不仅会影响海洋实时监测(尤其是在紧急情况下),还会影响数据进一步分析、预测和推断的性能。因此,面对海量的时空数据集,如何实现高效、准确地缺失数据补全,是目前亟待解决的技术问题。

发明内容

本发明的目的是克服现有技术的不足,提供一种基于多视图学习的时空缺失数据补全方法。

为实现上述发明目的,本发明具体采用的技术方案如下:

第一方面,本发明提供了一种基于多视图学习的时空缺失数据补全方法,用于对环境监测数据集进行监测参数缺失值的补全,所述环境监测数据集中包含不同监测站点对应的监测参数值时序序列,所述补全方法包括如下步骤:

S1、针对待补全的环境监测数据集,根据各监测站点之间的距离确定每个数据缺失监测站点的邻近监测站点集合,并针对每个数据缺失监测站点以及其的邻近监测站点集合构建包含监测站点、监测时间、监测参数三个维度的数据张量;所述数据缺失监测站点中至少有一个监测参数字段存在监测参数缺失值;

S2、针对每个数据缺失监测站点对应的数据张量,将每个监测参数缺失值所在位置分别沿三个维度进行二维矩阵分解,得到包含监测时间和监测站点两个维度的第一混合视图矩阵、包含监测时间和监测参数两个维度的第二混合视图矩阵以及包含监测站点和监测参数两个维度的第三混合视图矩阵;

S3、针对环境监测数据集中每一个监测参数缺失值对应的每个混合视图矩阵,通过矩阵完备算法分别进行监测参数缺失值的全局补全和局部补全,每个监测参数缺失值以全局补全值和局部补全值的平均值作为当前混合视图矩阵中的补全结果;其中,第一混合视图矩阵、第二混合视图矩阵、第三混合视图矩阵执行全局补全时,分别以整个第一混合视图矩阵、整个第二混合视图矩阵、所在时段内所有监测时间的第三混合视图矩阵拼接结果作为矩阵完备算法的待补全矩阵;第一混合视图矩阵、第二混合视图矩阵、第三混合视图矩阵执行局部补全时,分别以第一混合视图矩阵按时间块划分后的第一局部矩阵、第二混合视图矩阵按时间块划分后的第二局部矩阵、整个第三混合视图矩阵作为矩阵完备算法的待补全矩阵;

S4、将环境监测数据集中每一个监测参数缺失值在三个混合视图矩阵中的补全结果输入经过训练的多视图学习神经网络模型中,对三个补全结果进行整合,得到每一个监测参数缺失值的最终估计,完成环境监测数据集的时空缺失数据补全。

作为上述第一方面的优选,所述环境监测数据集以关系数据库形式存储,记录每个监测站点的位置坐标信息、监测参数值和监测时间信息。

作为上述第一方面的优选,每个数据缺失监测站点确定所述邻近监测站点集合的方法为:计算目标数据缺失监测站点与其余各监测站点之间的欧几里得距离,并根据欧几里得距离由小到大的顺序按照预设数量选出邻近监测站点,计算目标数据缺失监测站点与每个邻近监测站点之间监测参数值的相关性,剔除相关性低于阈值的邻近监测站点后,将剩余邻近监测站点构建为邻近监测站点集合。

作为上述第一方面的优选,所述第一混合视图矩阵采用IALM算法作为矩阵完备算法;在进行全局补全时,IALM算法对整个第一混合视图矩阵进行补全,得到每个监测参数缺失值的全局补全值;在进行局部补全时,先将第一混合视图矩阵按时间块划分为多个第一局部矩阵,IALM算法对所有第一局部矩阵分别进行补全,得到每个监测参数缺失值的局部补全值;第一混合视图矩阵中每个监测参数缺失值对应的全局补全值和局部补全值的平均值作为补全结果。

作为上述第一方面的优选,所述第二混合视图矩阵采用FPCA算法作为矩阵完备算法;在进行全局补全时,FPCA算法对整个第二混合视图矩阵进行补全,得到每个监测参数缺失值的全局补全值;在进行局部补全时,先将第二混合视图矩阵按时间块划分为多个第二局部矩阵,FPCA算法对所有第二局部矩阵分别进行补全,得到每个监测参数缺失值的局部补全值;第二混合视图矩阵中每个监测参数缺失值对应的全局补全值和局部补全值的平均值作为补全结果。

作为上述第一方面的优选,所述第三混合视图矩阵采用NonConvex算法作为矩阵完备算法;在进行全局补全时,先将当前第三混合视图矩阵与至少一个相邻监测时间的第三混合视图矩阵进行拼接,NonConvex算法对拼接矩阵进行补全,得到每个监测参数缺失值的全局补全值;在进行局部补全时,NonConvex算法对整个当前第三混合视图矩阵进行补全,得到每个监测参数缺失值的局部补全值;第三混合视图矩阵中每个监测参数缺失值对应的全局补全值和局部补全值的平均值作为补全结果。

作为上述第一方面的优选,所述多视图学习神经网络模型为由输入层、隐含层及输出层组成的深度神经网络,每一个监测参数缺失值在三个混合视图矩阵中的补全结果作为深度神经网络的输入,每一个监测参数缺失值的最终估计作为深度神经网络的输出。

作为上述第一方面的优选,所述环境监测数据集为以时序数据形式记录的水质参数浮标监测数据集,其中监测参数代表一个或多个水质监测指标,监测站点代表浮标监测站点,监测时间代表浮标记录监测参数的时刻。

第二方面,本发明提供了一种基于多视图学习的时空缺失数据补全装置,其包括存储器和处理器;

所述存储器,用于存储计算机程序;

所述处理器,用于当执行所述计算机程序时,实现如第一方面中任一方案所述的基于多视图学习的时空缺失数据补全方法。

第三方面,本发明提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,能实现如第一方面中任一方案所述的基于多视图学习的时空缺失数据补全方法。

相对于现有技术而言,本发明具体以下有益效果:

本发明通过引入环境监测数据的监测参数作为属性维度,针对数据缺失监测站点构建了时间-空间、时间-属性、空间-属性混合视图,采用多视图学习方法,一方面可以在同一个混合视图中同时考虑单维度信息,另一方面也能对多维度复杂关联关系进行建模。本发明采用的矩阵完备算法具有良好的非线性关系拟合能力,能够提取矩阵的全局结构,从而对矩阵内部的缺失值进行良好估算。基于估算的补全结果,本发明通过人工神经网络构建估计值与目标值之间的复杂相关关系,实现多视图互补,能够较好的解决时间、空间等单维度方法无法补全连续块缺失数据的局限。因此,本发明对于时空大数据的研究和应用具有重要的意义。

附图说明

图1 为基于多视图学习的时空缺失数据补全方法的步骤流程示意图;

图2 为实施例中时空缺失数据补全过程示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下,均可进行相应组合。

在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于区分描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。

为了便于叙述,在陈述本发明的具体实现方案前,先对部分定义进行描述。

在本发明中,环境监测数据集中是由不同监测站点对应的监测参数值时序序列组成的,每一个监测站点的监测参数值时序序列中包含了该监测站点对于一个或多个监测参数在不同监测时刻记录的参数值。环境监测数据集是一种典型的时空数据集数据,同时具有时间、空间、属性维度。其中在时空数据集中,时间维度上由一些列时间点组成,空间维度上由一系列空间点组成,属性字段可以是一个或者多个。多个连续时间点可以组成一个时间块。若时空数据集中某一个属性值缺失,则其对应的空间点即称为数据缺失空间点。对于本发明的环境监测数据集而言,时间维度对应于监测时间、空间维度对应于不同位置的监测站点、属性维度对应于一个或多个监测参数。由于各种客观原因的存在,环境监测数据集中的监测参数值容易存在缺失,若环境监测数据集中某一个监测参数值缺失,则将其称为监测参数缺失值,而对应的监测站点即称为数据缺失监测站点。而本发明的目的正是补全这些数据缺失监测站点中缺失的监测参数值,使整个环境监测数据集保持完整。

需要说明的是,本发明中的监测站点的形式可以是多样的,例如浮标站点、固定站点、临时采样点等等,监测参数也可以是任意的环境相关指标,例如水质指标、气象指标、土壤理化性质指标等等,对此不做限制。

基于上述定义和解释,下面对本发明的具体实现方式进行详细展开描述。

现有的时空缺失数据补全方法大多只考虑了数据的时间和空间维度,而忽略了属性字段之间的相关关系。其中,只考虑时间维度信息的方法主要是通过时序数据插值及预测进行缺失值的估算,难以解决长时序数据连续缺失,即时间块缺失的极端情况。同样的,只考虑空间信息的方法通过地理空间相邻点来计算缺失数据。然而,当空间点非常稀疏时,这些方法难以对空间对缺失数据进行精准估算。因此,本发明拟针对环境监测数据集,通过引入数据的属性维度,构建时间-空间、时间-属性、空间-属性混合视图,进而采用多视图学习方法融合单维度信息以及多维度复杂关联关系,实现更为准确的缺失数据补全。

如图1所示,在本发明的一个较佳实施例中,提供了一种基于多视图学习的时空缺失数据补全方法,用于对环境监测数据集进行监测参数缺失值的补全,该补全方法具体包括如下S1~S4步骤:

S1、针对待补全的环境监测数据集,根据各监测站点之间的距离确定每个数据缺失监测站点的邻近监测站点集合,并针对每个数据缺失监测站点以及其的邻近监测站点集合构建包含监测站点、监测时间、监测参数三个维度的数据张量,而数据缺失监测站点中至少有一个监测参数字段存在监测参数缺失值。

在该S1步骤中,环境监测数据集一般可以用关系数据库形式存储,以便于记录每个监测站点的位置坐标信息、监测参数值和监测时间信息。环境监测数据集中待补全的监测参数缺失值是由数据集自身的数据质量所决定的。在监测参数维度上,一个数据缺失监测站点可以有一个监测参数字段存在缺失值,也可以有多个监测参数字段同时存在缺失值,同样的在时间维度上,一个数据缺失监测站点可以在一个监测时间上存在监测参数缺失值,也可以在多个监测时间上存在监测参数缺失值。数据张量的三个维度中,空间维度坐标轴由一系列监测站点组成,时间维度坐标轴由一系列监测时间组成,监测参数维度坐标轴由一系列监测参数字段组成。由于数据缺失监测站点中必然存在监测参数缺失值,因此数据张量中也同样存在监测参数缺失值。假设邻近监测站点集合中的监测站点个数为k,那么该数据张量中空间维度的监测站点个数为k+1,即包含了数据缺失监测站点以及其的邻近监测站点集合中的所有监测站点。

在该S1步骤中,邻近监测站点集合中具体包含哪些监测站点,需要根据每个数据缺失监测站点与周边其他监测站点之间的空间距离而定。在实际操作中,可以预先设定一个距离阈值将距离小于该距离阈值的监测站点纳入邻近监测站点集合中,也可以设置一个监测站点的预设数量K,将最近的K个监测站点纳入邻近监测站点集合中。

作为本实施例的一种具体实现形式,下面给出了针对每个数据缺失监测站点确定邻近监测站点集合的一种方法,为了便于叙述将当前需要确定邻近监测站点集合的数据缺失监测站点称为目标数据缺失监测站点。目标数据缺失监测站点的邻近监测站点集合确定方法如下:

基于各监测站点的坐标,计算目标数据缺失监测站点与其余各监测站点之间的欧几里得距离,并根据欧几里得距离由小到大的顺序按照预设数量K选出最邻近的K个监测站点,将这些监测站点称为邻近监测站点,计算目标数据缺失监测站点与每个邻近监测站点之间监测参数值的相关性,剔除相关性低于阈值的邻近监测站点后,将剩余邻近监测站点构建为邻近监测站点集合。需注意的是,每个监测站点可能有多个监测参数字段,因此每一个监测参数字段的监测参数值相关性需要分别计算,也就是说对于任意两个监测站点,需要计算两者关于同一个监测参数字段的监测参数值时间序列之间的相关性。由此,上述相关性阈值也需要针对每一个监测参数字段分别设置。对于目标数据缺失监测站点与任意一个邻近监测站点,只要有一个监测参数字段的监测参数值相关性低于对应的相关性阈值,即可将该邻近监测站点从邻近监测站点集合中剔除。

作为本实施例的一种具体实现形式,上述预设数量K可以根据数据集的具体情况进行优化,通过缺失数据补全测试结果对不同的K值进行测试,选定整体补全结果最优的K值即可。

S2、针对每个数据缺失监测站点对应的数据张量,将每个监测参数缺失值所在位置分别沿三个维度进行二维矩阵分解,得到包含监测时间和监测站点两个维度的第一混合视图矩阵、包含监测时间和监测参数两个维度的第二混合视图矩阵以及包含监测站点和监测参数两个维度的第三混合视图矩阵。

在该S2步骤中,由于数据张量是一个三维张量,因此每个监测参数缺失值所在位置可以通过固定一个维度来进行分解,形成二维的混合视图矩阵。例如,第一混合视图矩阵实际是一个时间-空间矩阵,因此固定监测参数维度即可得到该时间-空间矩阵,第二混合视图矩阵实际是一个时间-属性矩阵,因此固定空间维度即可得到该时间-属性矩阵,第三混合视图矩阵实际是一个空间-属性矩阵,因此固定时间维度即可得到该空间-属性矩阵。因此,三维张量的二维分解,相当于将三维张量在监测参数缺失值所在位置进行三个维度的切割,形成三个二维的矩阵。

因此,通过该步骤,数据张量中每一个监测参数缺失值都可以对应地得到三个混合视图矩阵,用于进行下一步的监测参数缺失值补全。

S3、针对环境监测数据集中每一个监测参数缺失值对应的每个混合视图矩阵,通过矩阵完备算法分别进行监测参数缺失值的全局补全和局部补全,每个监测参数缺失值以全局补全值和局部补全值的平均值作为当前混合视图矩阵中的补全结果;其中,第一混合视图矩阵、第二混合视图矩阵、第三混合视图矩阵执行全局补全时,分别以整个第一混合视图矩阵、整个第二混合视图矩阵、所在时段内所有监测时间的第三混合视图矩阵拼接结果作为矩阵完备算法的待补全矩阵;第一混合视图矩阵、第二混合视图矩阵、第三混合视图矩阵执行局部补全时,分别以第一混合视图矩阵按时间块划分后的第一局部矩阵、第二混合视图矩阵按时间块划分后的第二局部矩阵、整个第三混合视图矩阵作为矩阵完备算法的待补全矩阵。

多视图学习的目的是学习不同领域或不同特征提取器的特征。样本在不同的视图中采用多种形式,表现出不同的特性,但在不同的视图中保留相似的语义信息。多视图学习致力于利用多视图中的互补性并自适应地学习不同视图之间的关系。充分利用多个视图可以极大地提高多视图模型的性能。因此,多视图学习由于其在许多应用中的出色表现而受到了广泛的关注,本发明亦基于多视图学习进行时空缺失数据补全方法。

在该S3步骤中,所谓矩阵完备,又称矩阵填充(英文为Matrix completion)。其定义为:对于一个元素缺失的矩阵,通过对其有效位置的元素进行采样,进而恢复出缺失的元素。原则上,任何能够准确实现本发明中三个混合视图矩阵中监测参数缺失值补全的算法都可以应用于该步骤中,对此可不做限制。但是三个混合视图矩阵各自有各自的数据特点,因此选择何种矩阵完备算法使应当结合其自身特点而定,以便于优化其补全效果。本发明通过对三个混合视图矩阵中数据特点的探究,选择了三种不同的矩阵完备算法来实现各自的缺失值补全,三种矩阵完备算法分别为不精确拉格朗日乘子法(Inexact AugmentedLagrange Multiplier,简称IALM算法)、近似奇异值分解基础上的不动点迭代法(fixed-point continuation with approximate singular value decomposition,简称FPCA算法)和非凸矩阵完备法(non-convex matrix completion algorithm,简称NonConvex算法)。

作为本实施例的一种具体实现形式,第一混合视图矩阵采用IALM算法作为矩阵完备算法。第一混合视图矩阵的时间-空间视图矩阵表示了同一时间不同空间位置之间的关系、同一位置的时序变化信息以及不同位置和不同时刻之间的相互作用。因此,使用IALM算法对每一个监测参数的时间-空间视图矩阵进行缺失值补全,可以更有效的利用这些信息。对于任一监测参数缺失值的第一混合视图矩阵而言,在进行全局补全时,IALM算法以完整的第一混合视图矩阵作为输入,对整个第一混合视图矩阵进行补全,得到每个监测参数缺失值的全局补全值;在进行局部补全时,先将第一混合视图矩阵按时间块划分为多个第一局部矩阵,IALM算法对所有第一局部矩阵分别进行补全,即每一个第一局部矩阵分别输入IALM算法进行补全,得到每个监测参数缺失值的局部补全值。每个时间块中包含了多个监测时间,但具体所包含的监测时间数量可以根据实际优化调整。由此,第一混合视图矩阵中每个监测参数缺失值都将得到一个对应的全局补全值和一个对应的局部补全值,这两个值的平均值可作为这个监测参数缺失值在第一混合视图矩阵中的补全结果。

作为本实施例的一种具体实现形式,第二混合视图矩阵采用FPCA算法作为矩阵完备算法。第二混合视图矩阵的时间-属性视图包含三种类型的关联关系:相同监测参数的时间序列关系、相同时刻不同监测参数之间的交互关系以及不同时刻和不同监测参数之间的复杂相关关系。相比于只考虑时序依赖关系的时间插值方法,FPCA算法能够提取全局矩阵结构,同时考虑多种类型的关联关系,也考虑了全局尺度信息和局部尺度信息的差异性。对于任一监测参数缺失值的第二混合视图矩阵而言,在进行全局补全时,FPCA算法以完整的第二混合视图矩阵作为输入,对整个第二混合视图矩阵进行补全,得到每个监测参数缺失值的全局补全值;在进行局部补全时,先将第二混合视图矩阵按时间块划分为多个第二局部矩阵,FPCA算法对所有第二局部矩阵分别进行补全,即每一个第二局部矩阵分别输入FPCA算法进行补全,得到每个监测参数缺失值的局部补全值。类似的,每个时间块中包含了多个监测时间,但具体所包含的监测时间数量可以根据实际优化调整。由此,第二混合视图矩阵中每个监测参数缺失值也都将得到一个对应的全局补全值和一个对应的局部补全值,这两个值的平均值可作为这个监测参数缺失值在第二混合视图矩阵中的补全结果。

需注意的是,将混合视图矩阵按时间块划分为局部矩阵时,是矩阵的监测时间维度进行切分的,而另一个维度不变。若原始的混合视图矩阵中,监测时间维度具有T个时刻,时间块大小为t,则每个局部矩阵的监测时间维度为t,而另一个维度不变。例如,对于第一混合视图矩阵,其监测时间维度为T1,监测站点维度为T2,时间块大小为t1,则划分后的局部矩阵的监测时间维度为t1,监测站点维度为T2;对于第二混合视图矩阵,其监测时间维度为T3,监测参数维度为T4,时间块大小为t2,则划分后的局部矩阵的监测时间维度为t2,监测参数维度为T4。对于环境监测数据集的监测时间而言,时间块相当于一个包含若干监测时间的监测时间段。

作为本实施例的一种具体实现形式,第三混合视图矩阵采用NonConvex算法作为矩阵完备算法。对于每个时刻,第三混合视图矩阵的空间-属性视图矩阵描述了空间位置信息、不同监测参数之间的关系以及空间位置和监测参数之间的交互关联信息。因此,使用NonConvex算法对每一个时刻的空间-监测参数矩阵进行缺失值补全可以有效利用这些信息。对于任一监测参数缺失值的第三混合视图矩阵而言,为便于叙述将需要补全的这个第三混合视图矩阵称为当前第三混合视图矩阵,在进行全局补全时,先将当前第三混合视图矩阵与至少一个相邻监测时间的第三混合视图矩阵进行拼接得到拼接矩阵,NonConvex算法对拼接矩阵进行补全,即将拼接矩阵输入NonConvex算法进行补全,得到每个监测参数缺失值的全局补全值;在进行局部补全时,NonConvex算法对整个当前第三混合视图矩阵进行补全,即将当前第三混合视图矩阵整体输入NonConvex算法进行补全,得到每个监测参数缺失值的局部补全值。此处,拼接矩阵中具体将几个监测时间的第三混合视图矩阵进行拼接可以根据实际进行优化,最少为1个,亦可以是多个。在将不同监测时间的第三混合视图矩阵进行拼接式,需要将第三混合视图矩阵按时间先后沿空间维度进行顺次排列后拼接。由此,第三混合视图矩阵中每个监测参数缺失值也都将得到一个对应的全局补全值和一个对应的局部补全值,这两个值的平均值可作为这个监测参数缺失值在第三混合视图矩阵中的补全结果。

本发明从三个不同的混合视图矩阵出发,将数据补全问题视为矩阵完备问题。每个视图都被表示为一个矩阵;然后,应用矩阵完备算法分别对不同视图混合矩阵进行缺失数据的补全。矩阵完备算法能够提取整个矩阵的全局结构,考虑到数据的全局特征和局部差异性,在对各视图进行缺失数据估算时,分别从局部和全局两个尺度进行估算。因此,本发明的多视图时空缺失数据补全方法同时考虑了数据的三种混合视图,并充分利用了数据中的局部和全局信息以提高插补精度,当遇到块缺失模式时,多视图学习方法可以利用多个混合视图的相互协作来弥补单视图和双视图方法的不足。

当然,需要说明的是,上述三个混合视图矩阵并非一定需要各自采用上述的矩阵完备算法进行补全,其他的矩阵完备算法亦可实现,只是其补全效果存在差异而已。

S4、将环境监测数据集中每一个监测参数缺失值在三个混合视图矩阵中的补全结果输入经过训练的多视图学习神经网络模型中,对三个补全结果进行整合,得到每一个监测参数缺失值的最终估计,完成环境监测数据集的时空缺失数据补全。

在该S4步骤中,多视图学习神经网络模型可以采用深度神经网络来实现,即采用由输入层、隐含层及输出层组成的深度神经网络,每一个监测参数缺失值在三个混合视图矩阵中的补全结果作为深度神经网络的输入,每一个监测参数缺失值的最终估计作为深度神经网络的输出。

深度神经网络的训练属于现有技术,其并非本发明的重点。在实际实现过程中,可以将环境监测数据集中原本不存在缺失的监测参数值作为真值标签,然后按照前述S1~S3的步骤构建其在三个混合视图矩阵中的补全结果,由此形成训练样本对深度神经网络进行训练。通过训练神经网络可以得到补全结果与目标值之间的最佳网络结构,在训练、学习和预测过程中,误差反向传播,调整权重值及隐含节点的偏移量。深度神经网络完成训练使其补全精度满足要求后,即可作为多视图学习神经网络模型对环境监测数据集中的监测参数缺失值进行补全工作。

由此可见,本发明的基于多视图学习的时空缺失数据补全方法,通过上述S1~S4步骤,实现了对环境监测数据集中的时空缺失数据的补全。该方法可分别从三个视图出发来计算监测参数缺失值的相应估计值,值得注意的是,由于矩阵完备算法可以同时预测所有缺失的读数,而不是一次仅预测一个值,因此可以大大减少计算时间。本发明在时空大数据的研究和应用中例如海洋环境监测、智慧城市发展等具有重要的意义。

另外,在本发明的其他实施例中,还提供了一种基于多视图学习的时空缺失数据补全装置,其包括存储器和处理器;

所述存储器,用于存储计算机程序;

所述处理器,用于当执行所述计算机程序时,实现如上述S1~S4所述的基于多视图学习的时空缺失数据补全方法。

另外,在本发明的其他实施例中,还提供了一种计算机可读存储介质,该存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,能实现如上述S1~S4所述的基于多视图学习的时空缺失数据补全方法。

需要注意的是,上述的存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit, CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。当然,还装置中还应当具有实现程序运行的必要组件,例如电源、通信总线等等。

需要说明的是,根据本发明公开的实施例,上述存储器中的具体实现各步骤的功能可以通过编写的计算机软件程序来实现,计算机程序中包含用于执行相应方法的程序代码。

为了便于理解本发明的改进意义所在,下面本发明进一步基于上述实施例中前述S1~S4所述的基于多视图学习的时空缺失数据补全方法,将其应用至具体的实例中对其效果进行展示。在下述应用实例中,环境监测数据集为以时序数据形式记录的水质参数浮标监测数据集,其中监测参数代表一个或多个水质监测指标,监测站点代表浮标监测站点,监测时间代表浮标记录监测参数的时刻。

实施例

下面以浙江近岸浮标监测数据集为例进行缺失数据的补全,该数据集中含有不同浮标站点的历史监测数据,每一个浮标站点监测多个水质指标参数并以时序序列形式存储监测结果,用于展示的参数包括温度、盐度、pH、溶解氧和电导率。该数据集收集了16个浮标时间范围为2016年2月1日-2016年7月31日的实验数据,总共有1092个数据时刻,监测时间的间隔为4小时。

在本实例的补全试验中,将浙江近岸浮标监测数据集建立成关系型数据库,记录它们的位置坐标信息、监测参数值和监测时间信息。对数据进行处理后,统计各站点数据的缺失情况,设置监测数据的整体缺失率为0.1,且不同监测参数的数据缺失情况如表1所示。

表 1 不同总体缺失率下各参数数据缺失情况

基于该数据集,利用前述S1~S4步骤的基于多视图学习的时空缺失数据补全方法进行缺失数据的补全,其具体做法如图2所示,步骤如下:

第一步:按照前述S1步骤,针对有数据缺失的目标监测站点,计算欧几里得距离以确定与其最邻近的K个监测站点。本实例中预先通过实验确定最优的K值为5。然后对不同目标监测站点与其他监测站点之间相同监测参数计算皮尔森相关系数,衡量其相关性,剔除与目标监测站点监测参数完全不相关(相关系数<0.2)的监测站点数据,剩余的邻近监测站点构建为邻近监测站点集合。因此,对于没有因为相关性问题被剔除邻近监测站点的目标监测站点而言,最终构建的数据张量维数为6(监测站点个数)×5(监测参数个数)×1092(监测时刻个数),而因为相关性问题被剔除邻近监测站点的目标监测站点而言,其空间维度会相应下降。

第二步:按照前述S2步骤,从上一步每个有数据缺失的目标监测站点对应的数据张量中沿三个维度进行二维矩阵分解,从而衍生出三个混合视图矩阵,分别为时间-空间混合视图矩阵、时间-参数混合视图矩阵、空间-参数混合视图矩阵。

第三步:按照前述S3步骤,通过FPCA、IALM、NonConvex矩阵完备算法分别对时间-参数混合视图矩阵、时间-空间混合视图矩阵及空间-参数混合视图矩阵进行缺失数据的全局补全以及局部补全并平均,对于每一个缺失值,均得到三个补全结果。在对时间-参数混合视图矩阵、时间-空间混合视图矩阵进行局部补全时所选取的时间块为6,即将相应的混合视图矩阵的时间维度上每6个时刻划分为一个局部矩阵。而对于空间-参数混合视图矩阵,其进行全局补全时,拼接矩阵由当前监测时间以及相邻一个监测时间的两个空间-参数混合视图矩阵拼接而成。

第四步:按照前述S4步骤,将数据集中每一个缺失值在上一步得到的三个补全结果输入经过训练的深度学习网络中,对三个补全结果进行整合。深度学习网络中,输入层、隐含层、输出层的节点数分别为3,10,1。最后,得到每一个监测参数缺失值的最终估计,完成环境监测数据集的时空缺失数据补全。

为了验证本模型对时空缺失数据补全的稳定性和有效性,需要将缺失数据估计值与实际值进行对比,采均平均相对误差MRE、平均绝对误差MAE进行模型性能评估。评价指标具体如下:

其中,

此外,为了验证本发明中基于多视图学习的时空缺失数据补全方法(以下简称本发明方法)的优越性,使用现有技术中几种其他的时空缺失数据补全方法进行对比,各方法具体如下:

Linear和Spline:两种方法都基于时间依赖性对缺失值进行插值。前者表示线性插值算法,后者表示样条插值算法。

IDW和Kriging:两种方法都使用空间相关性来估算缺失的数据。它们根据地理空间相邻浮标的值对缺失值进行插补。

Spline+Kriging(SK):此方法同时考虑时间和空间视图。对于给定的参数,构造一个时空矩阵。Spline和Kriging方法分别根据时间依赖性和空间相关性来估计缺失值。Spline和Kriging预测的平均值作为最终结果。

MC-MVL-1:此方法与本发明的区别在于,在S3中每个监测参数缺失值仅以全局补全值作为当前混合视图矩阵中的补全结果,而不考虑局部补全值,同时其将S4中的人工神经网络替换为岭回归算法来整合不同混合视图的结果,其余做法与本发明方法相同。

MC-MVL-2:此方法与本发明的区别在于,将S4中的人工神经网络替换为岭回归算法来整合不同混合视图的结果,其余做法与本发明方法相同。

MCNN+全局:此方法与本发明的区别在于,在S3中每个监测参数缺失值仅以全局补全值作为当前混合视图矩阵中的补全结果,而不考虑局部补全值,其余做法与本发明方法相同。

本发明方法:即按照前述S1~S4步骤进行缺失数据补全。

最终在浙江近岸浮标监测数据集的缺失率均为0.1条件下,不同算法的缺失数据补全性能分别如表2所示。

表2 缺失率为0.1时不同补全方法的对比结果

由上述结果可见,相比本发明方法,多视图学习方法相比于传统Linear、Spline、IDW、Kriging、Spline+Kriging方法大大提高了补全的准确率。而MC-MVL-1和MCNN+全局这两种方法虽然也可以实现多视图学习,但是其未充分考虑各视图矩阵的局部差异性,缺失了局部补全值中的信息,因此其补全效果补入本发明中同时结合全局补全和局部补全的综合补全效果。另外,MC-MVL-1和MC-MVL-2与本发明方法相比,岭回归算法在处理非线性拟合问题上相比于人工神经网络表现更差,因此采用人工神经网络更适合于大批量数据的补全。

以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号