首页> 中国专利> 基于大数据资源的数据治理任务运行系统

基于大数据资源的数据治理任务运行系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及数据处理领域，具体涉及基于大数据资源的数据治理任务运行系统，包括数据采集模块，用于采集原料供给数据，并得到原料供给指标；数据计算模块，基于所有原料供给指标的方差以及变化程度，计算评估指标；根据相邻两时刻的原料供给数据的差分值，确定各级出料变动序列，进而确定不同工艺节点对应的权重；根据各时刻的评估指标以及各工艺节点的权重，计算流水线各工艺节点的出料量变动异常程度评价值；数据提示模块，将各工艺节点的出料量变动异常程度评价值与设定阈值进行比较，确定各工艺节点的异常集合，并将所有工艺节点的异常集合进行时间同步处理，得到处理结果，并进行分级提示。即本发明的方案能够对流水线的数据进行治理、管理。

著录项

公开/公告号CN114692091A

专利类型发明专利
公开/公告日2022-07-01

原文格式PDF
申请/专利权人江苏四象软件有限公司;
展开▼

申请/专利号CN202210435896.0
发明设计人韩岭;蔡进;胥传龙;李明;
展开▼

申请日2022-04-24
分类号G06F17/18;G06K9/62;G06Q10/06;G06Q10/10;G06Q50/04;
代理机构武汉华强专利代理事务所(普通合伙);
代理人康晨
地址 225000 江苏省扬州市经济技术开发区扬子江中路186号智谷大厦B座8层804-806
入库时间 2023-06-19 15:52:27

法律信息

法律状态公告日

法律状态信息

法律状态
2022-07-01

公开

发明专利申请公布

说明书

技术领域

本发明涉及数据处理领域，具体为基于大数据资源的数据治理任务运行系统。

背景技术

随着大数据技术和应用的发展，促使了传统制造业行业(如机加工、纺织等)需要将海量的业务数据向大数据平台迁移，在这个过程中，对数据进行转换、清洗的过程，称为数据治理。由于工业大数据增量快，重复性高，数据清洗容易疏忽的问题，导致数据治理的质量难以保证，后期工作难以进行下去。

目前，数据治理需要由专业的技术人员来进行数据清洗难以去重、映射等一系列的操作，效率不高且容易出错，不仅对技术人员的技术要求较高，而且对技术人员在业务层面的要求也非常高。

发明内容

为了解决上述技术问题，本发明的目的在于提供基于大数据资源的数据治理任务运行系统，所采用的技术方案具体如下：

本发明的基于大数据资源的数据治理任务运行系统，包括：

数据采集模块，用于采集流水线在设定时间内不同时刻的原料供给数据，得到不同时刻的原料供给指标；

数据计算模块，基于所有原料供给指标的方差以及变化程度，计算评估指标；

根据相邻两时刻的原料供给数据的差分值，确定流水线的不同工艺节点的各级出料变动序列，并利用非线性优化求解的方法，确定在流水线设定时间内的不同工艺节点对应的权重，进而得到每个工艺节点的权重；

根据各时刻的评估指标以及各工艺节点的权重，计算流水线各工艺节点的出料量变动异常程度评价值；

数据提示模块，用于将各工艺节点的出料量变动异常程度评价值与设定阈值进行比较，确定各工艺节点的异常集合，并将所有工艺节点的异常集合进行时间同步处理，得到处理结果，根据所述处理结果进行分级提示。

进一步地，还包括数据确认模块，用于构建流水线累计状态函数：E

其中，state

当所述累计状态大于设定状态值时，则出料量变动导致流水线发生异常。

进一步地，所述原材料供给数据为原材料数据与慢速更新原料供给指标的比值，其中慢速更新原料供给指标是设定时间窗口，对该时间窗口对应的原材料数据进行均值计算。

进一步地，获取处理结果的过程为：将各个工艺节点的异常集合内的数据的时间戳进行时间对齐，确定各异常集合的时间同步长度，确定在该段时间同步长度内的工艺节点的数量。

进一步地，所述分级提示为：

若在时间对齐的时间段内，存在工艺节点的异常集合的数量为1，则提示为一级异常；存在工艺节点的异常集合的数量为2，则提示为二级异常，以此类推，得到各个提示级别。

本发明的有益效果：

本发明提出了流水线工艺的各级异常数据治理方法，能够解析各级工艺出料量变动而导致的异常的结果，考虑到了原料供给异常对于结果的影响，并从实际的应用角度出发，设计流水线作业的出料量变动对于品质的影响判断方法，进而自动寻找异常的生产时间，从而在大量工业数据中对数据进行治理，且基于流水线运行情况持续治理其新产生的数据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明的基于大数据资源的数据治理任务运行系统的结构框图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明的方案，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

具体地，请参阅图1所示，本发明提供的基于大数据资源的数据治理任务运行系统，包括：数据采集模块、数据计算模块、数据比较模块以及数据提示模块。

其中，数据采集模块，用于采集流水线在设定时间内不同时刻的原料供给数据，计算相邻两时刻的后一时刻原料供给数据与前一时刻原料供给数据的比值，将所述比值作为原料供给指标。

具体地，本实施例中，采集流水线在设定时间内不同时刻的原料供给数据Q

其中，原料供给数据Q

作为其他实施方式，还可以对原料供给数据Q

基于慢速更新原料供给指标Q

上述中，慢速更新原料供给指标Q

上述中的记录流水线的原料供给指标Q，得到按照生产时间而计算得到的实时原料供给指Q＝{Q

其中，数据计算模块，基于所有原料供给指标的方差以及变化程度，计算评估指标；

根据相邻两时刻的原料供给数据的差分值，确定流水线的不同工艺节点的各级出料变动序列，并利用非线性优化求解的方法，确定在流水线设定时间内的不同工艺节点对应的权重，进而得到每个工艺节点的权重；根据各时刻的评估指标以及各工艺节点的权重，计算流水线各工艺节点的出料量变动异常程度评价值。

其中，本实施例中的评估指标为：

其中，q

其中，X为计算Q

上述中的评估指标为用本发明可以较为的准确地把握实时原料供给指标Q的瞬时变化，又不会因为流水线长时间的原料供给指标Q变化而影响评价结果。至此，得到的基于原料供给指标Q的流水线异常程度评价序列{q

本实施例中，流水线在作业时，会伴随着流水线工艺误差，是由流水线的内在工序的随机因素导致的，在流水线的终点时，是由流水线的流水线制动导致的上级瑕疵没有被有效处理掉。

以六个工艺环节的流水线为例，在六个出料数据上分别整理其出料量，以监测流水线整体出料量变动情况。

在流水线前端，可以测得Q

第一出料量差分得到

第二出料量差分得到

第三出料量差分得到

.........

第六出料量差分得到

出料量差分下的流水线出料量变动序列，进行流水线的工艺节点的出料量变动异常程度评价。

其中，非线性模型为：

其中

其中，损失函数loss＝A*B，优化器为Adam，能够适应生产线中的数据的稀疏梯度问题。

其中

上述数据清洗模型的设计原理是：

各个工艺节点出料量变动的影响方向不同，对整体的影响不一致，列如当第一工艺节点品质异常时，则对整体的出料量变动存在决定性影响，其它工艺出料量也会随之变动。若瑕疵能够被解决，往流水线的末端其产生的影响越小，在末端发生的出料量变动异常，对流水线整体产生的影响较小。故会采用此种计算方法，由前端位置的工艺得到较大的出料量变动影响权重。

得到t时间下的各工艺节点的权重为

基于得到的各个工艺节点对整体的出料量变动影响权重，得到流水线的工艺节点出料量变动异常程度评价。由于各个工艺的影响在流水线的运行中是同时增大和减小的，且由于各工艺权重加和为1，计算的结果在流水线的正常运转下，各工艺的权重在正常作业下保持几乎不变。

以第一工艺节点的出料量变动异常程度评价为例：

公式中，

其中，

在流水线的工作过程中，由于流水线的作业范围在变化，会导致各个工艺节点的影响，

其中，q

其中，数据提示模块，用于将所述出料量变动异常程度评价值与设定阈值进行比较，确定异常集合，对异常集合中的数据进行时间同步处理，得到处理结果，并根据所述处理结果进行分级提示。

其中，所述分级提示为：若在同时间段内的工艺数量为1，则提示为一级异常；若在同时间段内的工艺数量为2，则提示为二级异常，以此类推，得到各个提示级别。

本实施例中，基于得到的各个节点的出料量变动异常程度序列，寻找出料量变动异常程度的情况：

由于工艺的出料量变动异常出现的原因较为复杂，因此基于无监督分类算法DBSCAN进行分类，从而联合对数据的分析。

首先，对于各个流水线出料量变动受到工艺异常程度进行分类，确定工艺异常程度的来源。利用DBSCAN算法进行工艺异常程度的密度聚类，对于工艺异常程度聚类，设定聚类的寻找半径为r，寻找半径r是通过具体的流水线最大产量决定的，最大产量越小，所需要的寻找半径越小。

其次，基于DBSCAN算法得到若干聚类类别，基于得到的具体聚类的类别，将未聚类的单个数据进行剔除。此步骤的目的是除掉个别瞬时原料供给指标Q过高的时间，此时间并不是流水线异常导致的，而是流水线供给出现延迟导致的。

设置出料量变动异常阈值，阈值的设定是为了确定各工艺节点异常程度极限，从而进一步确定的工艺异常的时间时。阈值以下的聚类为边缘聚类，对于聚类进行边缘聚类的寻找目的是确定工艺的异常的极限。

得到各个工艺节点的极限聚类内的异常集合U

对于上述的异常聚类中的数据进行时间同步处理：

首先，对于各个工艺节点的极限聚类内的异常集合U

其次，由于工艺的出料量变动异常会影响整体的出料量变动评价，故需要在各个工艺节点的极限聚类内的异常集合U

最后，基于各个聚类内的数据的时间戳进行对比，即找到各聚类内的时间同步长度，在该段时间内的出料量变动异常出现了时间上的持续性，出料量变动的幅度较大，且持续时间较长。故此刻为工艺的异常情况可能性更高。在该时间段内六个工艺同时出现异常，且出现异常的工艺越多，则工艺的瑕疵带来的出料量变动异常情况可能性更高。

进一步地，由于出料量变动异常的报警只是对于出料量变动来源于工艺的流水线异常得到的，同时缺乏数据的具体确定，即在实际应用中需要根据具体的环境为依据，可能会出现报警错误的情况，即出料量变动的异常评价达到了提示标准，但没有造成出品异常(不影响正常出品，该出料量变动异常不影响实际出品，可以接受)，故需要追加精度异常评价，同时进行数据治理的数据自动标注，降低人工工作量；因此，还包括数据确认模块，用于构建流水线累计状态函数：

其中，state

当所述累计状态大于设定状态值时，则出料量变动导致流水线发生明显异常，进行提醒；反之，不进行提醒。

具体地，当累计状态E大于设定状态值3时，意味着连续3时间的品控得分低于0.6，认为流水线的精度受震动影响出现误差较大的情况，说明此出料量变动导致流水线发生明显异常，因此自动将该段时间数据自动标记为异常，从而更好地基于时间位置来对其余的数据进行管理治理，例如：1)生成时间报表；2)研究异常时间段的分布；3)优化生产线流程。

当累计状态E小于设定状态值3时，连续3至4时间的品控得分均高于0.6，流水线的精度受瑕疵影响出现误差较小的情况，此时不标记为异常。

至此，在一段时间内能够自动标注该段时间的异常等级。

上述实施例中的品质因子是指工艺结束后的品控打分结果，对结果进行归一化处理，使其区间位于[0,1]，例如百分制的品控打分结果被除以100，缩放至[0,1]，得到品质因子数据G＝{g

因此，本发明提出了流水线工艺的各级异常数据治理方法，能够解析各级工艺出料量变动而导致的异常的结果，考虑到了原料供给异常对于结果的影响，并从实际的应用角度出发，设计流水线作业的出料量变动对于品质的影响判断方法，进而自动寻找异常的生产时间，从而在大量工业数据中对数据进行治理，且基于流水线运行情况持续治理其新产生的数据。

首先完成步骤一中的对流水线在实验工作中的数据采集，以及对应的计算过程，得到各个工艺节点的异常程度评价序列，并对异常程度的评价序列进行报警等级划分；实对实际的生产需要对提示等级进行生产时间的定位。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种大数据系统中基于资源估算的任务调度方法及装置 [P] . 中国专利： CN106354553A . 2017-01-25
2. 一种大数据资源治理的智能化资源编目方法 [P] . 中国专利： CN110275874B . 2022.04.05
3. 一种基于变分自编码器的训练样本数据扩充方法、存储介质及计算机设备 [P] . 世界知识产权组织专利： WO2020/143321A1 . 2020.07.16