首页> 中国专利> 一种基于时空融合的煤矿瓦斯浓度缺失值填充方法

一种基于时空融合的煤矿瓦斯浓度缺失值填充方法

摘要

本发明属于数据处理领域,具体涉及一种基于时空融合的煤矿瓦斯浓度缺失值填充方法,该方法包括:对噪声数据进行识别及处理;基于时间维度对数据的缺失值进行填充;基于空间维度对数据的缺失值进行填充;将时间和空间维度的填充结果进行融合,从而得到最终结果;本发明将离线数据作为模型构建的训练集,并将生成的模型应用于生产环境中的数据,能够综合利用各种煤矿瓦斯浓度监测数据,提高模型泛化能力,降低填充误差。

著录项

  • 公开/公告号CN112948743A

    专利类型发明专利

  • 公开/公告日2021-06-11

    原文格式PDF

  • 申请/专利权人 重庆邮电大学;

    申请/专利号CN202110325141.0

  • 申请日2021-03-26

  • 分类号G06F17/10(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构50215 重庆辉腾律师事务所;

  • 代理人卢胜斌

  • 地址 400065 重庆市南岸区南山街道崇文路2号

  • 入库时间 2023-06-19 11:22:42

说明书

技术领域

本发明属于数据处理领域,具体涉及一种基于时空融合的煤矿瓦斯浓度缺失值填充方法。

背景技术

随着科学技术的不断更新发展,信息化在各个领域越来越重要,从最初的计算机,摄像头到家用计算机,智能手机,再到大数据和人工智能,通过不断升级采集和利用数据的方式,将人与人,人与世界连接起来,构成一张繁密的网络,且数据挖掘已经广泛应用到各种领域中。在实际中,数据在录入过程可能出现“误录”和“漏录”的情况,从而导致得到的数据为含有噪声的数据或不完备的数据。不完备数据会对数据挖掘造成多种影响:完备数据减少,可获得的信息相应减少,导致结果的标准误差和置信区间均变大;一些模型不适用于含有缺失值的数据。异常数据会严重影响模型效果与统计分析,因此,在数据挖掘前需要先对数据进行处理,形成一个有效的数据集之后,才能进行最有效的分析。

目前我国各大煤矿安全态势的瓦斯监测系统多数以PC机为主体,在矿井下固定的地方安装瓦斯监测传感器,再通过很长的电缆把监测到的浓度等数据传到煤矿中心控制室。煤矿开采过程中通过安装不同规格的传感器收集到不同地区、不同矿区、不同时间的监测数据,通过对这些数据进行挖掘可以发现其潜在价值,为矿区的安全监察和灾害预警起到重要的作用;但在实际中,采集到的数据存在着噪声数据,数据缺失等问题而不能被直接使用,基于未处理的数据进行分析可能造成较大的偏差,得到错误的煤矿安全态势分析结果,严重危害人们生命及财产安全。现有的数据预处理方法大多运用统计学、机器学习和深度学习领域的相关技术,且多数缺失值填充方法仅适用于缺失率较低、数据变化平稳的情况,一旦缺失率较高,填充效果就会急剧下降,难以用一个模型去适配所有的缺失情况。

发明内容

为解决以上现有技术存在的问题,本发明提出了一种基于时空融合的煤矿瓦斯浓度缺失值填充方法,该方法包括:

S1:获取煤矿瓦斯浓度数据集;

S2:采用高斯混合函数拟合数据集中的样本数据,并对噪声数据进行标记;将标记的噪声数据重置为前后时刻的煤矿瓦斯浓度均值;

S3:将标记后的样本数据从前后输入到BiLSTM模型中,从时间维度对缺失值进行填充;

S4:挖掘瓦斯传感器之间的空间关系趋势图,根据空间关系趋势图将K个最邻近传感器的相位变化率作为缺失值的变化率,根据缺失值的变化率从空间维度对缺失值进行填充;

S5:计算步骤S3和步骤S4的填充均方误差,并根据填充均方误差确定合适的权重,采用该权重加权融合时空维度的填充值作为最终的填充结果。

优选的,采用高斯混合函数拟合数据集中的样本数据以及对噪声数据进行标记的过程包括:设置阈值,将已有的噪声数据集与高斯混合函数进行拟合,得到高斯混合函数的参数值;根据高斯混合函数的参数值判断样本数据与高斯函数预测值的误差;将误差值与设置的阈值进行比较,如果误差小于给定阈值,则将数据标记为噪声数据,否则为正常数据。

进一步的,高斯混合函数的公式为:

优选的,采用BiLSTM模型对缺失值进行填充的过程为:

步骤1:将缺失值的瓦斯数据输入到前向LSTM模型中,得到前向预测结果;

步骤2:将缺失值的瓦斯数据输入到后向LSTM模型中,得到后向预测结果;

步骤3:计算前向预测结果和后向预测结果的平均值,将该平均值作为时间维度上缺失值的填充值。

进一步的,采用LSTM模型对缺失值的瓦斯数据进行处理的过程包括:

步骤1:获取t时刻输入到模型的数据x

f

i

其中,W

步骤2:根据获取的数据x

其中,tanh(.)表示tanh激活函数,W

步骤3:获取t-1时刻的细胞状态C

其中,f

步骤4:根据获取的数据x

o

其中,W

步骤5:根据输出门的数据以及当前细胞状态计算t时刻细胞隐藏状态;

h

其中,o

优选的,根据瓦斯传感器的关系对缺失值进行填充的过程包括:根据传感器的特征对传感器进行聚类;计算簇内传感器与代填充传感器之间的皮尔逊相关系数,将簇内传感器中皮尔逊相关系数最接近的前K个传感器在对应时刻的变化率作为缺失值的变化率;将填充的缺失值作为空间维度的填充值。

进一步的,皮尔逊相关系数的表达式为:

进一步的,待填充传感器的填充值的计算公式为:

优选的,根据填充均方误差确定合适权重的公式包括:

优选的,采用该权重加权融合两个维度的填充值的公式为:

本发明将离线数据作为模型构建的训练集,并将生成的模型应用于生产环境中的数据,能够综合利用各种煤矿瓦斯浓度监测数据,提高模型泛化能力,降低填充误差。

附图说明

图1为本发明的基于时空融合的煤矿瓦斯浓度缺失值填充方法整体架构图;

图2本发明的噪声识别处理流程图;

图3本发明的时空维度的填充流程图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将结合附图,对本发明实施例中的技术方案进行清楚、完整地描述,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在不付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

一种基于时空融合的煤矿瓦斯浓度缺失值填充方法,如图1所示,该方法包括:

S1:获取煤矿瓦斯浓度数据集;

S2:采用高斯混合函数拟合数据集中的样本数据,并对噪声数据进行标记;将标记的噪声数据重置为前后时刻的煤矿瓦斯浓度均值;

S3:挖掘拟合后的样本数据瓦斯浓度时间序列数据的时间关系趋势图,根据该关系将样本数据从前后输入到BiLSTM模型中,从时间维度对缺失值进行填充;

S4:挖掘瓦斯传感器之间的空间关系趋势图,将K个最邻近传感器的相位变化率作为缺失值的变化率,根据缺失值的变化率从空间维度对缺失值进行填充;

S5:计算步骤S3和步骤S4的填充均方误差,并根据填充均方误差确定合适的权重,采用该权重加权融合时空维度的填充值作为最终的填充结果。

如图2所示,采用高斯混合函数拟合数据集中的样本数据以及对噪声数据进行标记的过程包括:首先,遍历数据集,对噪声数据的曲线进行分析,估计其浓度最高值、浓度上升和下降的变化率,持续时间等特征,构造特征集和样本集;其次,选择曲线拟合函数对噪声数据进行拟合,得到最优的拟合函数;然后,结合噪声特征对噪声数据进行标记;最后,将标记的噪声数据重置为其前后时刻的浓度均值。

采用高斯混合函数拟合数据集中的样本数据以及对噪声数据进行标记的过程包括:设置阈值,将已有的噪声数据集与高斯混合函数进行拟合,得到高斯混合函数的参数值;根据高斯混合函数的参数值判断样本数据与高斯函数预测值的误差;将误差值与设置的阈值进行比较,如果误差小于给定阈值,则将数据标记为噪声数据,否则为正常数据。

高斯混合函数的公式为:

其中,f(t)表示t时刻高斯混合函数值,k

图3是本发明实施例的时空维度的填充流程图。包括以下步骤:

(1)读取瓦斯传感器监测数据,分别输入到时间维度缺失值填充方法和空间维度缺失值填充方法中。

(2)挖掘瓦斯浓度的时间关系,采用BiLSTM模型对缺失值进行填充。LSTM模型由t时刻的输入X

LSTM模型由t时刻的输入X

步骤1:获取t时刻输入到模型的数据x

f

i

其中,W

步骤2:根据获取的数据x

其中,tanh(.)表示tanh激活函数,W

步骤3:获取t-1时刻的细胞状态C

其中,f

步骤4:根据获取的数据x

其中,W

步骤5:根据输出门的数据以及当前细胞状态计算t时刻细胞隐藏状态;

h

其中,o

(3)挖掘瓦斯传感器之间的空间关系,用传感器的量程、型号、位置等特征对传感器进行聚类,计算簇内传感器与待填充传感器之间的皮尔逊相关系数,将簇内前K个相关性最强的传感器在对应时刻的变化率作为缺失值的变化率,进而对缺失值进行填充,将填充结果作为空间维度的填充值。

皮尔逊相关系数的表达式为:

其中,r(i,j)为用来反映变量之间相关关系密切程度的统计指标,i表示第i个传感器,j表示第j个传感器,y

待填充传感器的填充值的计算公式为:

其中,g(t

(4)采用训练集上时间和空间维度填充的均方误差来确定对应的权重,加权融合两个维度的填充值作为最终的填充结果。本发明可以更好地填充煤矿瓦斯浓度缺失值,提高模型的泛化性,在多种缺失率下有较好的填充效果。

时空融合的填充值由时间填充值和空间填充值组成,对于更精准的填充值应该分配较高的权重,因此对部分数据填充后,使用误差平方和(Error Sum of Square,ESS)作为损失函数,平方误差和越小,对应的权重系数应越大,则将时间填充值和空间填充值的EES进行变换后作为对应权重系数:

其中,ESS

采用该权重加权融合两个维度的填充值的公式为:

其中,

以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号