首页> 中国专利> 一种基于过采样和欠采样结合的工业数据平衡处理算法

一种基于过采样和欠采样结合的工业数据平衡处理算法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明提出了一种基于过采样和欠采样结合的工业数据平衡处理算法。该算法融合多种采样方法，针对工业环境数据正负样本比例非常不协调的问题，根据不同数量的样本数据集，分类做数据平衡处理。包括如下步骤：对数据进行预处理消除异常和补全缺失值；根据不同类别数据样本的数量划分为多数类和少数类；针对少数类采用SMOTE算法，即合成少数过采样技术。对少数类别样本进行分析和模拟，并将人工模拟的新样本添加到数据集中；针对多数类采用基于K‑Means算法的T‑Kmeans算法，实现对时序数据样本进行空间聚类。该发明能够解决工业数据样本极不平衡的问题，创建平衡且类别特征明显的新数据集，为预测或诊断故障等模型训练提供有力的数据支撑。

著录项

公开/公告号CN113111054A

专利类型发明专利
公开/公告日2021-07-13

原文格式PDF
申请/专利权人中国石油大学(华东);
展开▼

申请/专利号CN202110397505.6
发明设计人王涛;张卫山;包致成;于泽沛;
展开▼

申请日2021-04-13
分类号G06F16/215(20190101);G06F16/2458(20190101);G06K9/62(20060101);G06Q50/04(20120101);
代理机构
代理人
地址 266580 山东省青岛市黄岛区长江西路66号
入库时间 2023-06-19 11:49:09

说明书

技术领域

本发明涉及互联网领域、数据分析及处理领域，具体涉及到一种基于过采样和欠采样结合的工业数据平衡处理算法。

背景技术

工业智能化快速发展，设备内部结构越来越复杂。对工业设备的安全性和可靠性研究的课题越来越多。但是收集到的工业数据在类别上具有极其不平衡的缺点。所以提出一种对工业时序数据样本平衡处理的算法，为后续课题研究提供有力的数据支撑是具有重要意义的。近年来最接近本发明的技术有：

(1)、K-Means模型：K-Means可以实现对数据样本进行空间聚类，在一定程度上实现数据平衡。但是针对数据样本少的数据，单一的K-Means会让数据丢失更加严重。即不适合少样本类别数据。

由于收集到的数据极不平衡，不能使用单一的方法对数据简单处理。本方法采用过采样和欠采样结合的工业数据平衡处理算法，将工业数据进行平衡处理得到优化后的数据。为对工业设备分析提供良好的数据样本，从而提高设备预测的准确性。

发明内容

为解决现有技术中的缺点和不足，本发明提出了一种基于过采样和欠采样结合的工业数据平衡处理算法，通过对经过预处理后的数据集划分为少数类和多数类，再根据不同数量级类别进行不同的针对性平衡处理。对少数类采用SMOTE算法进行人工模拟数据样本合成，对多数类采用T-KMeans算法进行样本合理缩减。实现对工业数据的平衡处理。

本发明的技术方案为：

步骤(1)：对收集到的工业传感器数据做数据预处理，进行清洗、降噪等操作。并针对实时接收格式处理，形成时序序列；

步骤(2)：将经过步骤(1)中处理后的数据，按照类别数量，划分为多数类和少数类；

步骤(3)：针对经过步骤(2)划分得到的少数类数据样本，利用 SMOTE算法通过生成合成算例进行人工模拟数据合成；

步骤(4)：针对经过步骤(2)划分得到的多数类数据样本，按时序将2分钟内的数据看作一个样本点，再利用K-means算法将这些样本点在空间上进行聚类；

步骤(5)：将少数类和多数类经过平衡处理后的数据样本组合成平衡且具有类别代表性的新数据集。

本发明的有益效果：

(1)、使用本算法处理后的工业数据集，具有数据平衡的特点。为预测模型提供准确且有用的数据信息，可以提高预测模型的准确性，从而提高设备运行质量；

(2)、本方法通过对少数类使用人工合成方法扩充数据样本，对多数类采用时序数据分析与空间聚类结合的方法进行数据样本缩减。良好地实现了数据样本真正地平衡状态。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明对数据集使用欠采样和过采样结合来实现数据平衡的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图所示，对一种基于过采样和欠采样结合的工业数据平衡处理算法的具体流程进行详细说明：

步骤(1)：对收集到的工业传感器数据做数据预处理，进行清洗、降噪等操作。并针对实时接收格式处理，形成时序序列；

步骤(2)：将经过步骤(1)中处理后的数据，按照类别数量，划分为多数类和少数类；

步骤(3)：针对经过步骤(2)划分得到的少数类数据样本，利用 SMOTE算法通过生成合成算例进行人工模拟数据合成；

步骤(4)：针对经过步骤(2)划分得到的多数类数据样本，按时序将2分钟内的数据看作一个样本点，再利用K-means算法将这些样本点在空间上进行聚类；

步骤(5)：将少数类和多数类经过平衡处理后的数据样本组合成平衡且具有类别代表性的新数据集。

本发明的基于过采样和欠采样结合的工业数据平衡处理算法，通过将欠采样、过采样的方法应用到不同数量的不同类别数据样本上，对数据分别处理，最后再将分别平衡后的数据进行融合。形成新的数据集，得到数据平衡的数据样本集。提高对设备分析时的准确率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于过采样和欠采样结合的工业数据平衡处理算法 [P] . 中国专利： CN113111054A . 2021-07-13
2. 基于遗传算法和k-means聚类的不平衡数据集过采样方法 [P] . 中国专利： CN110674846A . 2020-01-10
3. The ‘Property Identification Method’ (“PIM”) is a novel algorithm through which a Real Estate Authority and/or Conveyancing data is created through image-processing a document such as a Council/Shire Rates Notice. This invention establishes a unique algorithm incorporating techniques such deep learning segmentation and computer vision to decode property information. This application utilises computer-implemented technology configured in such manner as to enable conveyancers and real estate agents to automate the creation of client files. [P] . AU2020102233A4 . 2020-10-29

机译： “财产识别方法”（“ PIM”）是一种新颖的算法，通过该算法，可以通过对文件（如市议会/房屋价格通知）进行图像处理来创建房地产管理局和/或产权转让数据。本发明建立了一种独特的算法，该算法结合了诸如深度学习分段和计算机视觉之类的技术来解码属性信息。该应用程序利用以某种方式配置的计算机实现的技术，以使运输商和房地产经纪人能够自动创建客户端文件。
4. Data i.e. multimedia data, handling method, involves storing data with dictionary-based algorithm in permanent memory of embedded device i.e. control module, in compressed manner and decompressing data in volatile memory [P] . 德国专利： DE102006049263A1 . 2008-04-30

机译：数据，即多媒体数据，一种处理方法，涉及将基于字典的算法的数据以压缩方式存储在嵌入式设备即控制模块的永久存储器中，并在易失性存储器中解压缩数据
5. ARTIFICIAL INTELLIGENCE ALGORITHM-BASED INDUSTRIAL BIG DATA PROCESSING SYSTEM [P] . WO2021208018A1 . 2021-10-21

机译：基于人工智能算法的工业大数据处理系统