首页> 中国专利> 一种基于工业大数据的生产风险智能预测预警方法

一种基于工业大数据的生产风险智能预测预警方法

摘要

本发明涉及AI人工智能技术领域,具体是指一种基于工业大数据的生产风险智能预测预警方法。包括7个步骤,步骤1为在一个装置单元中,选择能够反映装置运行状态的工艺位号;步骤2采集位号所有位号在指定时间内的历史数据;步骤3是对历史数据进行有效性分析;步骤4为计算位号历史数据分布模型;步骤5计算每行数据的异常值得分,异常值得分在[0.1]内;步骤6确定异常值得分阈值;步骤7计算实时数据的异常值得分和趋势。本发明针对生产装置运行中风险预测的技术难题,提出了一种基于工业大数据的生产风险智能预测预警方法。

著录项

  • 公开/公告号CN112633561A

    专利类型发明专利

  • 公开/公告日2021-04-09

    原文格式PDF

  • 申请/专利权人 北京名道恒通信息技术有限公司;

    申请/专利号CN202011445963.4

  • 发明设计人 姜洪安;张智伟;

    申请日2020-12-09

  • 分类号G06Q10/04(20120101);G06Q10/06(20120101);G06Q50/04(20120101);G06K9/62(20060101);G06N20/00(20190101);

  • 代理机构11616 北京盛凡智荣知识产权代理有限公司;

  • 代理人朱学绘

  • 地址 100095 北京市海淀区高里掌路3号院13号楼2单元101A

  • 入库时间 2023-06-19 10:32:14

说明书

技术领域

本发明涉及AI人工智能技术领域,具体是指一种基于工业大数据的生产风险智能预测预警方法。

背景技术

流程行业生产领域,具有危险系数高、工艺流程复杂等特点,装置设备长期处于高温高压运行状态中,是重大安全事故的高发区。一旦发生事故,将对企业造成重大经济损失,甚至威胁员工生命安全,威胁生态环保。装置产生的流量、压力、温度、振幅、液位、阀度等数据具有非线性变化和非正态分布等特点,装置或者设备单元的参数众多,相互之间关系复杂,难以精确描述,事故或问题的判断主要基于技术人员的个人经验,故障识别和解决效率低下。对生产风险进行预测预警是企业迫切需求。

对于复杂的研究对象,为了对问题做出比较可靠的统计推断,往往需要选择多个特征进行观测,每个特征都不同程度的包含了所研究问题的信息。特征个数的变多增加了问题的复杂度,难以用基于规则的方法(即工作人员的经验)或者基于某个特定分布模型(例如:泊松分布、指数分布、正态分布等)的方法来对数据进行异常检测。

本发明利用大数据分析和机器学习技术,综合考虑装置单元的多个状态数据,自动建立工作状态数据的概率分布模型,对异常状态进行检测和预测。

一般的监控模型通过设定某个具体位号报警阈值对实时数据进行在线监测,或者对部分几个相关联的参数进行阈值设定,进而对这几个参数所致异常事件进行监测,这种监测方式固然实现了异常监测和结果推送,但还是有缺陷:

监测方式只通过设定阈值,比较单一,预警效果不佳;

不适合较复杂、关键部位、参数较多的异常监测预警;

无法帮助用户全面定位异常相关问题位号;

建模环节严重依赖人工分析,而部分潜在数据关系无法靠人工定量分析获得,必须要借助大数据分析技术;

本发明不基于规则和某种特定数据分布的假设,而是利用统计模拟的方法,从历史数据中学习多个位号数据组成的随机向量的概率分布,并利用学习到的分布知识对低概率实时数据进行提前预警和报警。这样的模型具有通用性,适用于所有的随机数据场景。

发明内容

本发明针对生产装置运行中风险预测的技术难题,提出了一种基于工业大数据的生产风险智能预测预警方法。

本发明所采用的技术方案为:一种基于工业大数据的生产风险智能预测预警方法,其特征在于:包括具体步骤如下:

步骤1:为在一个装置单元中,选择能够反映装置运行状态的工艺位号,位号数量大于1小于100;

步骤2:通过实时数据库提供的API采集位号所有位号在指定时间内的历史数据;

步骤3:是对历史数据进行有效性分析,所述实时数据库中采集的数据包括数据值和数据质量,采集的所述所有位号数据集组成了样本矩阵X,所述X的每一列表示一个位号的数据,所述X的每一行表示在相同时间点采集的所有位号数据,所述样本矩阵X的数据通过滑动窗口方法进行扫描数据,所述扫描数据设置了分析计算;

步骤4:为计算位号历史数据分布模型,计算所述数据分布模型的输入数据是在步骤3中通过有效性检查的所有位号数据,所述数据分布模型采用孤立森林算法对数据分布进行建模;

步骤5:通过步骤4中创建的孤立森林,遍历样本矩阵X的每行数据,计算每行数据的异常值得分,所述异常值得分在[0.1]内;

步骤6:通过在步骤5中计算出的历史数据异常值得分数据进行聚类分析,以确定异常值得分阈值,高于所述阈值的数据设置为异常数据;

步骤7:按照步骤5中的方法,利用在步骤4中创建的孤立森林,计算实时数据的异常值得分和趋势。

所述工艺位号对应的物理设备必须是在同一个装置单元中,具体所述工艺位号由用户提供,至少需要提供2个位号,最多支持100个位号的预警和报警。

所述采集位号为1到3年的历史数据,所述采集位号1到3年的历史数据中设有优选年限,所述优选年限为2年,所述采集位号还可通过OPC协议采集所有位号在指定时间内的历史数据。

所述滑动窗口方法从第1行数据开始,每次扫描7200行数据,所述7200行数据扫描完毕后从开始位置向前推进10行后继续执行相同的扫描操作。

所述分析计算包括假设一和假设二,所述假设一中设有Y

所述孤立森林算法对数据分布进行建模设有方案1、方案2、方案3,所述方案1中设有目标数据、Masking效应和Swamping效应,所述目标数据是从样本矩阵X中的所有行中,等可能性的随机抽样512行数据;所述Masking效应表示异常数据增多并变的稠密;所述Swamping效应表示正常数据增多并变的稀疏;所述方案2通过目标数据中构建一棵满二叉树,二叉树的每个结点都有对应的结点列、结点值和结点数据,根结点的结点数据默认为整个目标数据,整个所述目标数据为根结点的结点数据,所述根结点到叶结点的每一个结点通过策略创建,所述策略包括策略1、策略2、策略3,所述策略1是从结点数据中按照等可能性随机选择某一列作为该结点的结点列,所述策略2是从该列数据中按照均匀分布随机选择一个介于最小值和最大值之间的数值作为该结点的结点值,所述策略3是将结点数据中小于该结点值的所有行作为左子结点的结点数据,将结点数据中大于该结点值的所有行作为右子结点的结点数据,按照相同的方法递归的依次创建左子树和右子树,所述叶节点通过结点数据无法再分为止创建;所述方案2是按照第1步和第2步的方法,构建200棵树组成孤立森林,每颗数模拟了目标数据的概率分布,整个孤立森林则模拟了整个数据集的平均概率分布。

计算每行数据所述异常值得分设有方案一、方案二、方案三,所述矩阵X中设置有该行数据,所述方案一为计算该行数据在每颗二叉树中的深度,初始深度为0,从二叉树的根结点开始递归的依次搜索每一个结点;所述该行数据中对应结点列的数值小于结点值且结点存在左子结点则深度增加1并搜索左子结点,否则搜索结束;所述该行数据中对应结点列的数值大于结点值且结点存在右子结点则深度增加1并搜索右子结点,否则搜索结束;所述该行数据中对应结点列的数值等于结点值或结点设置为叶结点则搜索结束;所述方案二设有该行数据在整个孤立森林中所有二叉树的深度总和为d,所述该行数据的异常值得分s通过γ=0.5772156649015329,

所有所述异常值得分数据进行具有3个中心点和1次迭代的K-mean聚类,通过聚类将异常值得分数据分为低度异常、中度异常和高度异常3部分数据;所述异常值得分数据的高度异常部分的中心点作为基本阈值,找出异常值得分数据中大于等于基本阈值的所有数据段作为异常值得分数据段;每一个所述异常值得分数据段拟合多个梯形折线,所述梯形折线的上底的开始位置依次从第12个数据点到倒数第12个数据点,计算每个所述梯形折线的残差平方和,选择残差平方和最小的梯形折线为最优梯形折线,所述最优梯形折线上底对应的异常值得分作为该异常值得分数据段的异常值得分;所有所述异常值得分数据段的异常值得分的平均值作为所有历史数据异常值得分的报警阈值,所述该阈值的95%作为预警阈值。

计算所述实时数据的异常值得分,如果异常值得分低于预警阈值,则跳过下面的步骤;所述实时数据的异常值得分高于预警阈值但低于报警阈值,则计算包括之前11个时间点的实时数据异常值得分序列的趋势:对包含这12个数据的实时数据异常值得分序列进行一元线性回归,所述一元线性回归中斜率大于0,所一元线性回归中斜率的p值小于0.05,所述实时数据异常值得分序列有显著的上升趋势,触发预警;所述实时数据的异常值得分高于等于报警阈值,触发报警;所述实时数据的每一列表示当前采样时间点处一个位号的数据,对每一个位号的数据进行异常情况分析:使用该位号在当前时间点之前的60个正常数据,拟合一个ARIMA模型,并计算1步预测的95%置信区间;所述实时数据中该位号的数值不在该置信区间内,则认为位号数据与正常情况相比出现了过小或过大的异常情况;所述实时数据中该位号的数值在该置信区间内,则认为位号数据处于正常范围内。

本发明的有益效果:

本发明利用大数据分析和机器学习技术,综合考虑装置单元的多个状态数据,自动建立工作状态数据的概率分布模型,对异常状态进行检测和预测。

本发明不基于规则和某种特定数据分布的假设,而是利用统计模拟的方法,从历史数据中学习多个位号数据组成的随机向量的概率分布,并利用学习到的分布知识对低概率实时数据进行提前预警和报警。这样的模型具有通用性,适用于所有的随机数据场景。

本发明实现基于无参数统计,不需要任何特定领域知识和任何概率分布的假设;能够根据历史数据的分布中自动判断实时数据的异常情况;具有通用性,适合随机数据异常检测场景。

本发明采用基于工业大数据的生产风险智能预测预警方法,基于海量工业大数据,通过数学模型能够提前进行风险预测预警,为故障发现和处理争取了更多的时间,有效提供了故障解决效率;

本发明基于机器学习算法,不依赖于人的经验,能够根据实时数据预测装置运行状态异常情况,有利于快速定位异常原因。

本发明采用了非传统机理模型算法,解决了多变量复杂工况的建模问题,更加适合于工业大数据分析处理。

附图说明

图1为本发明一种基于工业大数据的生产风险智能预测预警方法的整体技术方案的流程图。

具体实施方式

一种基于工业大数据的生产风险智能预测预警方法,其特征在于:包括具体步骤如下:

步骤1:为在一个装置单元中,选择能够反映装置运行状态的工艺位号,位号数量大于1小于100;

步骤2:通过实时数据库提供的API采集位号所有位号在指定时间内的历史数据;

步骤3:是对历史数据进行有效性分析,所述实时数据库中采集的数据包括数据值和数据质量,采集的所述所有位号数据集组成了样本矩阵X,所述X的每一列表示一个位号的数据,所述X的每一行表示在相同时间点采集的所有位号数据,所述样本矩阵X的数据通过滑动窗口方法进行扫描数据,所述扫描数据设置了分析计算;

步骤4:为计算位号历史数据分布模型,计算所述数据分布模型的输入数据是在步骤3中通过有效性检查的所有位号数据,所述数据分布模型采用孤立森林算法对数据分布进行建模;

步骤5:通过步骤4中创建的孤立森林,遍历样本矩阵X的每行数据,计算每行数据的异常值得分,所述异常值得分在[0.1]内;

步骤6:通过在步骤5中计算出的历史数据异常值得分数据进行聚类分析,以确定异常值得分阈值,高于所述阈值的数据设置为异常数据;

步骤7:按照步骤5中的方法,利用在步骤4中创建的孤立森林,计算实时数据的异常值得分和趋势。

所述工艺位号对应的物理设备必须是在同一个装置单元中,具体所述工艺位号由用户提供,至少需要提供2个位号,该技术方案最多支持100个位号的预警和报警。

所述采集位号为1到3年的历史数据,所述采集位号1到3年的历史数据中设有优选年限,所述优选年限为2年,所述采集位号还可通过OPC协议采集所有位号在指定时间内的历史数据。

所述滑动窗口方法从第1行数据开始,每次扫描7200行数据,所述7200行数据扫描完毕后从开始位置向前推进10行后继续执行相同的扫描操作。

所述分析计算包括假设一和假设二,所述假设一中设有Y

所述孤立森林算法对数据分布进行建模设有方案1、方案2、方案3,所述方案1中设有目标数据、Masking效应和Swamping效应,所述目标数据是从样本矩阵X中的所有行中,等可能性的随机抽样512行数据;所述Masking效应表示异常数据增多并变的稠密;所述Swamping效应表示正常数据增多并变的稀疏;所述方案2通过目标数据中构建一棵满二叉树,二叉树的每个结点都有对应的结点列、结点值和结点数据,根结点的结点数据默认为整个目标数据,整个所述目标数据为根结点的结点数据,所述根结点到叶结点的每一个结点通过策略创建,所述策略包括策略1、策略2、策略3,所述策略1是从结点数据中按照等可能性随机选择某一列作为该结点的结点列,所述策略2是从该列数据中按照均匀分布随机选择一个介于最小值和最大值之间的数值作为该结点的结点值,所述策略3是将结点数据中小于该结点值的所有行作为左子结点的结点数据,将结点数据中大于该结点值的所有行作为右子结点的结点数据,按照相同的方法递归的依次创建左子树和右子树,所述叶节点通过结点数据无法再分为止创建;所述方案2是按照第1步和第2步的方法,构建200棵树组成孤立森林,每颗数模拟了目标数据的概率分布,整个孤立森林则模拟了整个数据集的平均概率分布。

计算每行数据所述异常值得分设有方案一、方案二、方案三,所述矩阵X中设置有该行数据,所述方案一为计算该行数据在每颗二叉树中的深度,初始深度为0,从二叉树的根结点开始递归的依次搜索每一个结点;所述该行数据中对应结点列的数值小于结点值且结点存在左子结点则深度增加1并搜索左子结点,否则搜索结束;所述该行数据中对应结点列的数值大于结点值且结点存在右子结点则深度增加1并搜索右子结点,否则搜索结束;所述该行数据中对应结点列的数值等于结点值或结点设置为叶结点则搜索结束;所述方案二设有该行数据在整个孤立森林中所有二叉树的深度总和为d,所述该行数据的异常值得分s通过γ=0.5772156649015329,

所有所述异常值得分数据进行具有3个中心点和1次迭代的K-mean聚类,通过聚类将异常值得分数据分为低度异常、中度异常和高度异常3部分数据;所述异常值得分数据的高度异常部分的中心点作为基本阈值,找出异常值得分数据中大于等于基本阈值的所有数据段作为异常值得分数据段;每一个所述异常值得分数据段拟合多个梯形折线,所述梯形折线的上底的开始位置依次从第12个数据点到倒数第12个数据点,计算每个所述梯形折线的残差平方和,选择残差平方和最小的梯形折线为最优梯形折线,所述最优梯形折线上底对应的异常值得分作为该异常值得分数据段的异常值得分;所有所述异常值得分数据段的异常值得分的平均值作为所有历史数据异常值得分的报警阈值,所述该阈值的95%作为预警阈值;方案6避免了由于(相对的)大量集中的较大异常值得分数据的吸引作用,导致聚类得到的异常值得分阈值过大的问题。

计算所述实时数据的异常值得分,如果异常值得分低于预警阈值,则跳过下面的步骤;所述实时数据的异常值得分高于预警阈值但低于报警阈值,则计算包括之前11个时间点的实时数据异常值得分序列的趋势:对包含这12个数据的实时数据异常值得分序列进行一元线性回归,所述一元线性回归中斜率大于0,所一元线性回归中斜率的p值小于0.05,所述实时数据异常值得分序列有显著的上升趋势,触发预警;所述实时数据的异常值得分高于等于报警阈值,触发报警;所述实时数据的每一列表示当前采样时间点处一个位号的数据,对每一个位号的数据进行异常情况分析:使用该位号在当前时间点之前的60个正常数据,拟合一个ARIMA模型,并计算1步预测的95%置信区间;所述实时数据中该位号的数值不在该置信区间内,则认为位号数据与正常情况相比出现了过小或过大的异常情况;所述实时数据中该位号的数值在该置信区间内,则认为位号数据处于正常范围内。

本发明利用大数据分析和机器学习技术,综合考虑装置单元的多个状态数据,自动建立工作状态数据的概率分布模型,对异常状态进行检测和预测。

本发明不基于规则和某种特定数据分布的假设,而是利用统计模拟的方法,从历史数据中学习多个位号数据组成的随机向量的概率分布,并利用学习到的分布知识对低概率实时数据进行提前预警和报警。这样的模型具有通用性,适用于所有的随机数据场景。

本发明实现基于无参数统计,不需要任何特定领域知识和任何概率分布的假设;能够根据历史数据的分布中自动判断实时数据的异常情况;具有通用性,适合随机数据异常检测场景。

本发明采用基于工业大数据的生产风险智能预测预警方法,基于海量工业大数据,通过数学模型能够提前进行风险预测预警,为故障发现和处理争取了更多的时间,有效提供了故障解决效率;

本发明基于机器学习算法,不依赖于人的经验,能够根据实时数据预测装置运行状态异常情况,有利于快速定位异常原因。

本发明采用了非传统机理模型算法,解决了多变量复杂工况的建模问题,更加适合于工业大数据分析处理。

以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号