首页> 中国专利> 用于揭示有意义变化的动态过程指标的自动监视和统计分析

用于揭示有意义变化的动态过程指标的自动监视和统计分析

摘要

选择模块使用户可指定在维层次的至少一个维中的至少一个待监视度量。对每个指定的度量并对每个指定的维,控制界限计算器对所指定维中的所指定度量从多维数据库提取时间序列,并根据所提取的时间序列使用统计过程控制(SPC)技术自动计算用于所指定维中的所指定度量的一个或多个控制界限。因此,监视模块根据一个或多个自动计算的控制界限,监视新获取的包含每个所指定维中每个所指定度量的数据的超界限情况。预警模块响应检测到的超界限情况而触发预警。

著录项

  • 公开/公告号CN1894652A

    专利类型发明专利

  • 公开/公告日2007-01-10

    原文格式PDF

  • 申请/专利权人 普罗克拉里蒂公司;

    申请/专利号CN200480037968.6

  • 发明设计人 罗伯特·C·勒肯;

    申请日2004-12-17

  • 分类号G06F1/30(20060101);

  • 代理机构11219 中原信达知识产权代理有限责任公司;

  • 代理人张焕生;谢丽娜

  • 地址 美国爱达荷州

  • 入库时间 2023-12-17 18:08:16

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-12-07

    未缴年费专利权终止 IPC(主分类):G06F1/30 授权公告日:20100616 终止日期:20171217 申请日:20041217

    专利权的终止

  • 2015-05-27

    专利权的转移 IPC(主分类):G06F1/30 变更前: 变更后: 登记生效日:20150507 申请日:20041217

    专利申请权、专利权的转移

  • 2010-06-16

    授权

    授权

  • 2010-05-19

    专利申请权的转移 IPC(主分类):G06F1/30 变更前: 变更后: 登记生效日:20100413 申请日:20041217

    专利申请权、专利权的转移

  • 2007-03-07

    实质审查的生效

    实质审查的生效

  • 2007-01-10

    公开

    公开

查看全部

说明书

技术领域

本发明一般涉及数据处理等领域。特别本发明涉及用于分析多维数据的技术。

背景技术

企业人员往往既管理过程也管理项目。过程适宜于可重复的、系统化的度量(measure),使得过程的管理者可确定该过程是在照常执行还是有关该过程的某些事情发生了变化。在最高级别,企业本身就是“过程”--取得输入资源(时间、资本、人力、材料等)并且产生输出(销售量和利润)。

企业建立各个过程,用来自动执行其计划并产生预期的结果。这导致根本性的问题,什么事情正在变化或已经变化?人们需要知道在什么时候过程的某些输入或输出已经变化,因它会危及组织的可预见性,并可能指出为了得到期望的结果需要改变当前的过程。

传统上,管理者接收报告(纸质的或电子的)来查看关键的企业过程指标(metric)并通过可视的检查和经验来试图发现某些事情是否已经变化。不幸的是,这种人工查看的方法极其耗时并要求管理者有很高的知识。

在近些年,引入了人工预警软件,这使得管理者可对关键的过程指标设置阈值。这些阈值可表示成常数,或者如最近被表示成表达式。然后这种软件随时间来监视这些指标,并且当所述阈值被跨越时则触发预警。

尽管预警软件较之以往的方法有其优点,但为了设置正确的阈值,预警软件依然需要大量的用户知识。指标常常是波动的,有时候随时间在大范围波动。阈值被设置得过于接近历史平均值,就会导致许多错误报警,即在正常状态下触发预警。在另一方面,把阈值设置得过于远离典型值,就可能导致不产生报警,即使过程中出现了根本性的变化。

另外,现有的软件仅自动化数据的周期性检查。如果用户要监视数百或数千的过程指标,用户必须配置数百或数千的预警,并且对每个预警必须确定正确的阈值的值或表达式。而且,用户必须阶段性地调整阈值,因情况会随时间变化。设置和维持所有这些预警可能是极其烦琐的。

企业过程越来越多地利用多维数据库来表示。概念上,多维数据库使用数据立方体的思想来表示对用户可用的数据的维(dimension)。例如,可以在产品模型、地域、时间的维中,或在某些另外的维中来查看“销售量”。在这种情形,知道“销售量”是数据立方体的度量属性,而其他的维被看作是特征属性。另外,数据库的建立者可以在维之内定义层(hierarchy)和级(level)(例如在区域层内的州级和城市级)。

由于其复杂性,多维数据库还进一步加剧上述的监视问题。在整个维中,对监视过程(度量)人工建立阈值可能是极其繁重的,或者在某些情况下实际上是无法实现的。

附图说明

图1是多维数据库的模式。

图2是作为数据立方体的多维数据库的表示。

图3是所监视的指标随时间的图表。

图4是用于动态过程指标的自动监视和统计分析系统的方框图。

图5是正态分布曲线图。

图6是示出控制界限自动计算的图4的系统的数据流图。

发明内容

统计过程控制(SPC)技术应用于用多维数据表示成度量的企业指标。这种SPC技术使得系统可过滤掉这些指标中常规的日常随机变化并检测企业过程中潜在的根本性变化。该系统自动把这些技术应用到指标,并确定正确的阈值,该阈值用来确定常规随机变化与根本性变化之间差异。因此,可触发预警向用户通知某些事情已经变化,而无需用户去确定特定的阈值。另外,在无需设置特定预警的情况下,用户可监视整个数十个过程中的成百的指标的变化情况。

具体实施方式

参见附图,其中相同的参考标号表示相同的要素。为了清楚,参考标号的第一位数字是指其中首次使用相应要素的图编号。

在下面的说明中,为了彻底理解本发明的实施例,提供了大量的编程、软件模块、用户选择、网络事务、数据库查询、数据库结构等的特定细节。但是,本领域的技术人员能够理解,无需这些细节中的一个或多个,或利用其他的方法、组件、材料等,也可实施本发明。

在某些情况下,为了避免使本发明不清晰,不再详细示出或说明公知的结构、材料或操作。另外,在一个或多个实施例中,所说明的特征、结构或特性可以按任何合适的方式来组合。

图1是在线分析处理(OLAP)数据库的模式。OLAP是指这样一种类型的数据库,其可对已聚集到各个分类或维104的数据或度量102的分析提供便利。例如,在图1的数据库100中,度量102可包括“销售量”、“销售增长”、“毛利率”、“回报率”、“平均折扣”等。维104可包括“时间”、“产品”、“销售团队”、“客户”等。维104本身可进一步包括维104,通常被称作级。例如,“客户”维104可包括“区域”、“国家”、“州”和“客户”级。

如图2所示,具有三个维104的OLAP数据库100可被诠释为立方体,每个轴向表示企业的维104(如“时间”、“产品”、“客户”),并且每个单元格表示度量102(如“销售量值”)。企业过程可以很容易地在OLAP数据库100中表示,这可增进企业的声望。

如上所述,管理者需要知道企业过程的某些输入或输出何时发生变化,因其危及组织的可预见性,并且可指出为了获得期望的结果需要改变当前的过程。传统上,管理者必须依赖书面报告并通过可视的检查和经验来确定是否发生了某些事情。后来,开发了手工预警软件,这使得管理者可为关键过程指标设置阈值。但是,或者在发现变化上,或者在设置监视软件的阈值上,两种技术都要求管理者具有相当多的知识。

图3用“月份”维104上“毛利率”度量102的图表示出了上述问题。例如,管理者可把预警阈值300手工设置在+/-6%。但是,这将导致若干错误报警302,因这些值在该指标的历史上常规差之内。另外,给定多维模型的复杂性,管理者可能需要配置数百或数千的预警,并且对每个预警必须确定正确的阈值的值或表达式。

图4示出系统400的方框图,系统400用于动态过程指标(即度量)的自动监视和统计分析,可解决上述的问题和缺点。开始,用户存取选择模块402以选择或指定要在整个一个或多个维104上监视的一个或多个度量102。所述度量102(或多个度量102)以及维104(或多个维104)可从如图1所示的OLAP数据库100的模式的图形化表示中选择。例如,用户可在该模式中高亮度或按其他方式来选择所期望的度量102和维104,然后执行合适的命令来登记该选择。在另外的实施例中,度量102和维104可从列表中选择,通过键入所选择实体的名称等来指定。

在一个实施例中,OLAP数据库100中的数据是从诸如财务系统的数据源404供给的。数据源404可以按周期性间隔提供新数据,如按小时、按天、按周、按季度等,或根据逐个事务来提供。

如所示出的,控制界限计算器406可从选择模块402接收对度量102和维104的选择。可选地,控制界限计算器406还可接收检测周期408、容限410和递送方法411的选择,下面将详细说明。在本公开的其余部分所说的都将是指按复数(多个)选择度量102和维104。,尽管单数情形也在考虑的范围之内。

作为例子,用户可经由选择模块402选择或指定下述的选项:

待监视的指标:毛利率

待监视的域和深度:产品(所有产品)

检测频度:按月

容限:95%

待监视的“指标”对应于OLAP数据库100中的维104。待监视的“域和深度”表示来自图1所示的维层次的一个或多个维104。在另外的实施例中,用户还可以在产品维104中指定不同的级,如“PC产品线”或“XC-15产品”。“检测频度”通常是指“时间”维104的一个级,如按年、按季度、按月、按天等。“容限”可表示成置信值,如“95%相信预警不是假报警”,或作为监视模块416应该如何“严格”地遵守自动生成的控制界限412的某种其他的指示。

通过选择模块402选择的选项的另外例子可包括:

待监视的指标:销售增长

待监视的域和深度:

产品(所有级)

销售团队(所有级)

客户(只有“所有”级、区域级、国家级和州级)

检测频度:按天

容限:80%

在一个实施例中,控制界限计算器406使用统计过程控制(SPC)技术来自动计算用于在整个每个所选择的维104上的每个所选择的度量102的一个或多个控制界限412。下面将详细说明,控制界限412是用于当检测到超界限情况时生成预警的阈值。但是,与传统的方法不同,这些阈值是自动确定的,而不是由用户来指定。

在一个实施例中,自动计算的控制界限412被存储在控制界限存储区414,连同相应的指标102和维104的指示。控制界限存储区414可以实现成数据库,尽管可使用计算机存储器和存储设备中的任何合适的数据结构。

在一个实施例中,监视模块416可存取控制界限存储区414,它监视新接收的由数据源404提供的数据(如在整个所选择的维104上选择的度量102)。可直接从数据源404读取新数据,或者从OLAP数据库100(其可由数据源404进行周期性更新)读取。在特定实施例中,数据源404可以按固定的时间间隔、根据要求或当无论何时它们变得可用时自动向监视模块416提供新数据。

在特定实施例中,监视模块416可周期性检查数据源404或OLAP数据库100(如在一个实施例中通过检测周期408来指定)用于更新。如上所述,指定的检测周期408可要求例如按月、按天或按小时更新。

监视模块416对照控制界限存储区414中的控制界限412来比较新获取的数据,以确定是否存在超界限情况(如度量102分别超过控制上限412或低于控制下限412)。如果检测到超界限情况,监视模块416指示预警模块418触发预警。

在一个实施例中,预警模块418负责通过预定义的或用户选择的递送方法向用户递送预警。可使用各种服务来递送预警,如电子邮件服务420、短信服务422或寻呼服务424。本领域的技术人员还知道各种其他的预警递送服务。

在一个实施例中,每个预警可以在其被触发时立刻递送。可替换地,预警模块418可积累若干预警,按接受者对预警分组,并当触发了设定数目的预警时等按预定的时间间隔向合适的接受者递送预警。

尽管在上面的讨论中这样建议,在监视发生之前,计算并存储用于所有指定的度量102和维104的控制界限412,但在每个实施例中可不是这样的情况。可考虑这样的实现,其中,对整个特定的维104上的特定度量102计算控制界限412,临时地存储并且立刻与当前数据比较,以确定是否存在超界限情况。

归结起来,用下面的伪代码说明图4的系统400所执行的算法:

1.对每个所选择的被监视指标(度量102):

1.对每个所选择的维104:

1.从OLAP数据库100提取时间序列(时间维104上的度量102);

2.对所选择维104中的所选择度量102自动计算控制界限412;

3.把该控制界限412存储在控制界限存储区414。

2.对新获取的数据,根据所存储的控制界限监视整个每个所选择维104上的每个所选择度量102的超界限情况。

3.如果检测到超界限情况,触发预警。

4.按接受者分组预警并通过指定的方法递送预警。

图6示出了一种方法,用于利用统计过程控制(SPC)技术来计算控制界限412。SPC使用统计方法来测度和分析过程中的变化。在制造业中常常使用SPC技术,其目的是监视过程质量并在固定容限之内维持过程。

在一个实施例中,控制界限计算器406从OLAP数据库100提取时间序列600(即时间维104上的多个度量102或其他的数据点)。由该时间序列600覆盖的时间段以及数据点的数量可根据可用数据的情况而不同。通常,使至少25或30个数据点在基线(baseline)时间段是有益的。有时候把几个新近的数据点留在该基线之外也是有用的,这样使得可以评价该基线的效率。把一些新近的数据点留在基线之外,使得它们可与基线平均值和控制界限412比较,而不影响平均值和控制界限的计算。

为了便于说明,时间序列600在控制图表602的背景中显示。控制图表602是对特定量化指标的某种说明性统计的图形表示,并且是SPC中使用的主要工具。图4中的控制界限计算器406不需要产生可由用户观察的实际控制图表602,尽管在一个实施例中是可以这样做的。提供控制图表602是为了说明由控制界限计算器406自动执行的计算。

SPC依赖可应用于不同类型数据的不同类型控制图表602,这反过来又导致不同的计算。至少有4种主要类型(有几十种变种)的控制图表602。图6中示出了第一种类型,x图表(以及相关的x条、r图表和s图表)。设计x图表主要是为了和“变量”数据一起使用,所述数据通常是度量值,如对象的长度、完成一个过程所需要的时间或每个周期所产生对象的数量。

除了x图表,还有3个特殊类型的控制图表602,即p图表、c图表和u图表。当正在被测度的数据满足特定的条件(或属性)则使用这些图表。例如,p图表与“二项”数据一起使用。p图表用于“是否通过(go-no go)”测试的结果,如在预算成本内完成工作订单的百分比。在这种情形,工作订单或者在预算内完成,或者没有在预算内完成(“go-no go”)。p图表具有优点,它考虑了样本规模(完成工作订单的数量),并且当样本规模小(只完成很少的工作订单)的时候用来说明高级的随机波动。

c图表用于“泊松(Poisson)”过程。这些过程和随机到达模型一起使用,或当“计数”属性时使用。这种类型的图表,例如,可监视许多等量样本(恒定样本规模)的每个中的“缺陷”数量。经验上,看来发生报告(Occurrence Reporting)数据(每月的报告数)适合“泊松”模型,并且,当对发生报告计数进行图示时,推荐使用c图表。

当每个“检查”的样本规模不相同时,在计数每样本“缺陷”时使用u图表。对固定的时间间隔,例如按月或按年来计数案例的数量,但样本规模(在每个时间间隔期间耗费的人时数)改变。

在一个实施例中,控制界限计算器406根据在分析的度量102的类型来选择合适的“图表”(以及相应的计算)。这可以从所述数据自动确定或可由用户来指定。当然,本领域的技术人员知道,还可使用各种其他的图表以及相关联的SPC计算。

因此,控制界限计算器406自动计算一个或多个控制界限412,如用于时间序列600的控制上限(UCL)和/或控制下限(LCL)。在一个实施例中,控制界限412可根据下述公式来计算:

UCL=X+Zσ             公式1

LCL=X-Zσ             公式2

其中X是数据的算数平均值,

σ是标准差,以及

Z是可用作容限系数的可选乘数。数据的算数平均值(X),也称作均值(mean),可按如下确定:

>ver>>X>‾>>=>>>>Σ>>i>=>1>>n>>>X>i>>>n>>>s>公式3

其中Xi是时间序列600中的度量102,以及

n是时间序列600中度量102的数量。

根据控制图表602的类型,标准差的计算可以不同。例如,对x图表,至少有两种方法来计算标准差。第一种是使用下述公式:

>>σ>=>>>>Σ>>>(>>X>i>>-ver>>X>‾>>)>>2>>>>n>->1>>>>>s>公式4

第二种方法对数据点对的平均范围值乘以0.887。

对c图表,标准差是平均值的平方根:

>>σ>=>ver>>X>‾>>>>s>公式5

对p图表,对每个基标(datum)值计算标准差。公式是:

>>σ>=>>>ver>>p>‾>>>(>1>-ver>>p>‾>>)>>>N>>>>s>公式6

其中并且N是该时间段的检验数。

对u图表,对每个基标值同样计算标准差。该公式是:

公式7

其中以及

N是用于当前时间段的样本规模(即取样规模)。

本领域的技术人员还知道,对不同类型的控制图表还可使用计算标准差的其他方法。

在一个实施例中,Z的值可有效确定控制界限412的容限(tolerance)。例如,在图5的正态分布曲线中,值为1的Z包括了平均值的1标准差范围内的所有数据点,这涵盖了大约68%的数据点。类似地,值为2的Z包括了2标准差范围内的所有数据点,占了大约95%的数据点。

因此,较小的Z值会导致更严格的控制界限412,会对较靠近平均值的数据触发预警,而较大的Z值将导致更宽松的控制界限412,导致更大范围的不触发预警的可能值。在一个实施例中,Z的值可对应于(或由其导出)图4中由用户指定的容限410。作为任意的例子,所指定的容限410或90%的置信值可对应于值为3的Z。在本发明的范围内,在不同的场合可使用其他的值。

在一个实施例中,控制界限计算器406可根据新的或已有的数据对控制界限412的计算细化。例如,控制界限计算器406可在已有数据中查找趋势:

●个别点在控制上限之上。

●个别点在控制下限之下。

●在一行中七个点全部高于平均值或全部低于平均值。

●在一行中上升的七个点。

●在一行中下降的七个点。

●在一行中十一分之十的点全部高于平均值或全部低于平均值。

●该数据中的循环或其他非随机模式。

●一行中在两个标准差之外的三分之二的点高于平均值,或一行中在两个标准差之外的三分之二的点低于平均值。

●一行中在一个标准差之外的五分之四的点高于平均值,或一行中在一个标准差之外的五分之四的点低于平均值。

如果发现存在上述的判据,可能需要重新计算控制界限412。

例如,如果初始的控制图表602示出个别点(个别一些点)在控制界限412之外,控制界限计算器406可以在不包含这些点的情况下重新计算平均值和标准差(其影响控制界限412)。在重新计算了平均值和控制界限412之后,控制界限计算器406可分析所剩余的数据。如果新的平均值看起来较之原来的平均值能更好地分割剩余的数据(在平均值的两侧有等量的数据点),则这确认了删除这些界外点的可信度。

在重新计算平均值和控制界限412之后,更多的点可能变成界外点。在极端的情况下,这可能导致剔除“界外点”动作的无限序列,直到只剩下很少的点。在这种情况下,可能最好返回到原始的平均值和控制界限412。

在某些情况下,可能在时间序列600中找到若干个(如七个或更多)全上升或全下降的点。这种情况指出在数据中可能发生持续的变化(斜坡)。在一个实施例中,控制界限计算器406可增加平均值和控制界限。这种统计过程控制(SPC)技术证实该数据在经历持续的显著变化。SPC可以被认为是对存在显著变化的规范“测试”。在这种情况下,该测试表明在发生显著的变化。

如果增加了平均值和控制界限,控制界限计算器406可利用在多个非重叠的区域上的平均值和控制界限来检测持续的变化,作为分步变化的序列。考虑类似于对一行中高于或低于平均值的七个点使用的方法。

如果区域变得太短,控制界限计算器406可简单地给从LCL以下到UCL以上(或反之)的点留一个较长的时间间隔区域。SPC可被认为是趋势存在性的“测试”。

剔除界外点或把数据分割到两个或更多个区域并重新计算新的标准差之后,标准差应该有降低。这将引起控制界限412更接近平均值。如果对标准差没有明显的减少,分割数据或剔除界外点可能就没有道理。

对控制界限412之外的新的基标(单个基标点显著移动),控制界限计算器406可试图确定原因,然后根据所取的变化方向确定正确的或强制的动作。

如果将来的数据返回到控制界限412之内,控制界限计算器406可保留已有的平均值和控制界限412。如果将来的数据依然在控制界限412之外(或接近控制界限412),控制界限计算器406可如所讨论的来计算新的平均值和控制界限412。

本领域的技术人员可理解,上述的只是一种SPC技术。在本发明的范围内可使用各种其他的SPC技术。SPC技术的更多讨论可参阅Donald J.Wheeler的《Understanding Variation:The Key To ManagingChaos》(第二版),1999年11月。其内容并入此处,供参考。

尽管这里示出并说明了本发明的特定实施例和应用,应该理解,本发明不限于这里公开的确切配置和组件。在不脱离本发明的精神和范围的前提下,对本发明方法与系统的布置、操作和细节可做出本领域技术人员显而易见的改型、修改和变种。

本发明的实施例可包括不同的步骤,这些步骤可用通用或专用计算机上执行的机器可执行指令来实施,或者可替换地,在另外的电子设备或系统中实施。在另外的实施例中,这些步骤可由包含有执行这些步骤的特定逻辑的硬件组件来执行,或由硬件、软件和/或固件的任何组合来执行。

还可以提供本发明的实施例作为计算机程序产品,包括机器可读介质,其中存储有可用于编程计算机(或其他电子设备)以执行所述过程的指令。所述机器可读介质包括但不限于:软盘、光盘、CD-ROM、DVD-ROM、ROM、RAM、EPROM、磁或光卡、传播媒体或其他类型的适于存储电子指令的媒体/机器可读介质。例如,用于执行所述过程的指令可通过以载波实现的数据信号的方式或经由通信链路(如网络连接)的其他传播介质从远程计算机(如服务器)传输到发请求的计算机(如客户端)。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号