首页> 中国专利> 滑动窗分段直线表示法的总拟合误差阈值估计方法与系统

滑动窗分段直线表示法的总拟合误差阈值估计方法与系统

摘要

本发明公开了滑动窗分段直线表示法的总拟合误差阈值估计方法与系统,具体包括:选取工业报警系统中采集到的一段历史时间序列数据作为训练数据;选取典型数据趋势时间尺度;由训练数据的统计性质估计拟合残差的分布,根据拟合残差的分布计算滑动窗分段方法对应的总拟合误差阈值,所确定的总拟合误差的阈值,应使得实施滑动窗分段方法后的直线段平均时间长度等于典型数据趋势时间尺度。本发明快速确定合适的总拟合误差阈值,能有效地辅助操作人员快速实施滑动窗数据分段方法,达到提高过程监控工作效率目的。基于此阈值计算方法实施滑动窗分段方法,所得到的分段结果与信号幅值、噪声水平无关,而仅依赖于时间序列的趋势变化,具有良好的可靠性。

著录项

  • 公开/公告号CN108615017A

    专利类型发明专利

  • 公开/公告日2018-10-02

    原文格式PDF

  • 申请/专利权人 山东科技大学;

    申请/专利号CN201810399883.6

  • 发明设计人 王建东;陈矿;

    申请日2018-04-28

  • 分类号

  • 代理机构济南圣达知识产权代理有限公司;

  • 代理人李圣梅

  • 地址 266590 山东省青岛市经济技术开发区前湾港路579号

  • 入库时间 2023-06-19 06:40:10

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-04-02

    授权

    授权

  • 2018-10-30

    实质审查的生效 IPC(主分类):G06K9/00 申请日:20180428

    实质审查的生效

  • 2018-10-02

    公开

    公开

说明书

技术领域

本发明涉及工业过程监控报警系统等自动化技术领域,特别是涉及滑动窗分段直线表示法的总拟合误差阈值估计方法与系统。

背景技术

在现代工业报警系统设计中,采集到的时间序列数据具有“高维、海量”的特点,导致直接在原始数据上实施传统过程监控的方法已不甚适应,目前一种应对方法是提取时间序列的有效特征来进行数据压缩,以压缩数据进行计算,从而提高算法效率,实现算法对“高维、海量”数据的适用性。在数据特征提取方法中,分段直线表示法是一种高效灵活的方法,该方法除了能提高计算效率外,还能够描述时间序列的趋势变化信息,对过程监控具有重要意义,因而得到了广泛的应用。

分段直线表示法的核心思想是用若干条直线段来近似替代原始时间序列,其技术核心在于确定分段点。滑动窗分段法是分段直线表示方法的一种在线实现,其主要思想是随时间序列不断增长当前直线段,直到当前直线段的总拟合误差超过指定阈值后,再立即开始一段新的直线段拟合过程。应用该方法需要确定的主要参数为总拟合误差的阈值,总拟合误差的阈值与最终的分段效果取密切相关。

目前,国内外各类资料、文献中对总拟合误差阈值的确定方法仅有少量讨论。其中较为普遍的一种总拟合误差阈值确定方法是基于小波变换展开的,该方法的缺陷在于难以在线进行,这就使得本可在线运行的滑动窗分段法失去了在线运行的优势。

因此,提出总拟合误差阈值确定方法,对于提高分段直线表示方法在工业报警系统的应用价值具有十分重要的意义。

发明内容

为了解决现有技术的不足,本发明提供了滑动窗分段直线表示法的总拟合误差阈值估计方法,本发明可以快速选取合适的总拟合误差阈值,辅助操作人员快速实施滑动窗数据分段方法,能有效提高过程监控工作的效率。

滑动窗分段直线表示法的总拟合误差阈值估计方法,为离线训练步骤,所述离线训练步骤中,具体包括:

选取工业报警系统中采集到的一段历史时间序列数据作为训练数据;

选取典型数据趋势时间尺度,该典型数据趋势时间尺度指的是描述时间序列变化趋势所需的样本量的时长平均值;

由训练数据的统计性质估计拟合残差的分布,根据拟合残差的分布计算滑动窗分段方法对应的总拟合误差阈值,所确定的总拟合误差的阈值,应使得实施滑动窗分段方法后的直线段平均时间长度等于典型数据趋势时间尺度。

进一步优选的技术方案,利用上述滑动窗分段直线表示法的总拟合误差阈值估计方法所得到的总拟合误差阈值用于在线实施时间序列数据的滑动窗分段。

进一步优选的技术方案,所述由训练数据的统计性质估计拟合残差的分布,具体为:

将训练数据时间序列进行分段线性表示,包含N段直线段,长度分别为L1,L2,…,LN,继而获得任意的第n个直线段Sn的表达式;

设直线段Sn的拟合直线,选取拟合直线的任意两个数据点及该直线段上的对应点,获得两组数据的残差;

假设残差满足均值为零的高斯分布,计算残差的方差的估计值。

进一步优选的技术方案,具体的:

训练数据时间序列表示为:x(1:t)=[x(1),x(2),…,x(t)]′;

将该数据时间序列分段线性表示为另一时间序列包含N段直线段,长度分别为L1,L2,…,LN,且有

任意的第n个直线段Sn表示为

令残差该段的总拟合误差为

总拟合误差的阈值η满足根据该准则(所确定的总拟合误差的阈值,应使得实施滑动窗分段方法后的直线段平均时间长度等于典型数据趋势时间尺度),合适的阈值η使得各直线段的长度均值接近于典型数据趋势时间尺度T,即

进一步优选的技术方案,设直线段Sn的拟合直线为x=an+bn·t,选取任意两个数据点x(t1)和x(t2)及该直线段上的对应点和则有an是拟合直线的截距,bn是拟合直线的斜率。

残差为做差得到

两边平方后取期望,得

假设残差满足均值为零的高斯分布,即e~N(0,σ2),其中σ2为方差;

令Δx=x(t2)-x(t1)及Δt=t2-t1,上式简化为

考虑Δt=1的情况,上式中用的样本均值估计为

而估计如下,由于且e~N(0,σ2),则

因而

由(5)(6)(8)得到残差的方差的估计值

进一步优选的技术方案,所述根据拟合残差的分布计算滑动窗分段方法对应的总拟合误差阈值中,对于滑动窗分段方法,总拟合误差的阈值η满足如下关系:

进一步优选的技术方案,令由e~N(0,σ2),则s是由总拟合误差除以方差构造出来的一个随机变量,它恰好满足卡方分布,即

s~χ2(Ln-1)(11)

又则直线段Sn长度为Ln的概率为

其中,f(x,k)是关于x的k自由度卡方分布的概率密度函数,根据准则,应有

将(12)式代入(13),并使用数值解法求解关于η的方程,得到所要求的总拟合误差的阈值η。

进一步优选的技术方案,求解关于η的方程时可以使用牛顿迭代法进行求解。

本申请还公开了滑动窗分段直线表示法的总拟合误差阈值估计系统,包括:

数据选择模块,选取工业报警系统中采集到的一段历史时间序列数据作为训练数据;

选取典型数据趋势时间尺度,该典型数据趋势时间尺度指的是描述时间序列变化趋势所需的样本量的时长平均值;

残差分布估计模块,由训练数据的统计性质估计拟合残差的分布;

误差阈值估计模块,根据拟合残差的分布计算滑动窗分段方法对应的总拟合误差阈值,所确定的总拟合误差的阈值,应使得实施滑动窗分段方法后的直线段平均时间长度等于典型数据趋势时间尺度。

进一步优选的技术方案,利用上述滑动窗分段直线表示法的总拟合误差阈值估计系统所得到的总拟合误差阈值用于在线实施时间序列数据的滑动窗分段。

与现有技术相比,本发明的有益效果是:

本发明可以快速确定合适的总拟合误差阈值,能有效地辅助操作人员快速实施滑动窗数据分段方法,达到提高过程监控工作效率目的。基于此阈值计算方法实施滑动窗分段方法,所得到的分段结果与信号幅值、噪声水平无关,而仅依赖于时间序列的趋势变化,具有良好的可靠性。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。

图1总拟合误差阈值估计方法的流程图;

图2滑动窗分段直线表示法的总拟合误差阈值估计系统框图;

图3实施案例的时间序列趋势图;

图4实施案例的参数及统计指标图。

具体实施方式

应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本申请的一种典型的实施方式中,如图1所示,提供了滑动窗分段直线表示法的总拟合误差阈值估计方法,该滑动窗分段直线表示法的总拟合误差阈值估计方法中包括

本方法由离线训练算法和在线计算算法两个部分组成。本方法包括如下步骤:

S1,选择一段合适的历史数据作为算法离线部分的训练数据;

S2,选取典型数据趋势时间尺度;

S3,由训练数据的统计性质估计拟合残差的分布;

S4,根据拟合残差的分布计算滑动窗方法的总拟合误差阈值;

S5,根据离线部分计算出的总拟合误差阈值实施滑动窗方法。

上述步骤中,S1、S2、S3及S4为离线训练算法部分,S5为实时在线计算部分。

为了实现上述算法,本发明定义了总拟合误差阈值的确定准则。

定义1,总拟合误差阈值的确定准则:所确定的总拟合误差的阈值,应使得实施滑动窗分段方法后的直线段平均时间长度等于典型数据趋势时间尺度。

具体地,对于一段时间序列x(1:t)=[x(1),x(2),…,x(t)]′。它的分段线性表示为另一时间序列包含N段直线段,长度分别为L1,L2,…,LN,且有任意的第n个直线段Sn可以表示为

令残差该段的总拟合误差为

总拟合误差的阈值η满足根据该准则,合适的阈值η使得各直线段的长度均值接近于典型数据趋势时间尺度T,即

以下结合实施例具体说明各个步骤的实施过程。

附图3展示了6个原始时间序列与应用本方法得到的分段结果。实施案例的参数及统计指标图见图4,前三个时间序列x1(t)、x2(t)和x3(t)为人工构造的序列,表达式为

其中,r(t)为高斯白噪声,满足r(t)~N(0,0.25)。后三个时间序列采自实际工业过程信号。

S1,选择一段合适的历史数据作为算法离线部分的训练数据。这段数据中的变化模式、噪声水平、工作状态等应具有代表性。

本实施例中,选取每个时间序列的前1500个样本作为训练数据。这些数据段描述了正常运行状态下的系统过程。

S2,选取典型数据趋势时间尺度。

本实施例中,前三个仿真序列选取典型数据趋势时间尺度为30,后三个工业序列选取典型数据趋势时间尺度为60。

S3,由训练数据的统计性质估计拟合残差的分布。

残差满足均值为零的高斯分布,即e~N(0,σ2)。其中σ2为方差,估计值为

其中,Δt=1,Δx=x(t+1)-x(t),

本实施例中,对每一时间序列,都首先计算(17)式和(18)式,再带入(16)式计算残差的方差。经计算,本实施例的六个时间序列的残差的方差分别为,0.0655,0.2619,26.1871,103.87,0.04,143.57。

S4,根据拟合残差的分布计算滑动窗方法的总拟合误差阈值。

为了得到所要求的总拟合误差的阈值η,使用数值解法求解关于η的方程:

其中η出现在概率项P(Ln)中:

其中,f(x,k)是关于x的k自由度卡方分布的概率密度函数。该方程可以使用牛顿迭代法等数值方法进行求解。

实际求解过程中,(19)式的累加上界取一个较大的数字即可,例如取上界为Lmax=4T。本实施例中,经数值求解,得到总拟合误差阈值分别为,1.88,7.49,748.56,37527.40,0.63,8443.37。

S5,根据离线部分计算出的总拟合误差阈值实施滑动窗分段方法。

由附图3所知,应用本方法后得到的分段结果能够较好的近似描述原始时间序列的变化趋势,说明本方法得到的总拟合误差的阈值是合适的。

本发明的另一种具体实施例子中还提供了一种滑动窗分段直线表示法的总拟合误差阈值估计系统,如附图2所示,包括:

数据选择模块,用于选择一段合适的历史数据作为算法离线部分的训练数据,并选取典型数据趋势时间尺度;

残差分布估计模块,由训练数据的统计性质估计拟合残差的分布;

误差阈值估计模块,根据拟合残差的分布计算滑动窗方法的总拟合误差阈值;

滑动窗方法实施模块,根据误差阈值估计模块计算出的总拟合误差阈值实施滑动窗方法。

本申请的上述系统可在服务器中以计算机程序的方式执行,具体的算法与一种滑动窗分段直线表示法的总拟合误差阈值估计方法一致,此处不再一一叙述。

在本实施例中,计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开内容操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开内容的各个方面。

应当注意,尽管在上文的详细描述中提及了设备的若干模块或子模块,但是这种划分仅仅是示例性而非强制性的。实际上,根据本公开的实施例,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号