技术领域
本发明涉及流程挖掘中的概念漂移和流程变体分析的技术领域,尤其是指一种基于漂移检测的流程变体差异分析方法与系统。
背景技术
近几年,随着大数据技术的发展,业务流程管理方法得到了进一步完善,企业信息系统已经成为支持业务流程的重要工具;同时,来自这些系统的实时数据的增长使得提取和分析有价值的信息成为可能。
传统的流程挖掘方法是为固定的环境而设计的,假定其中的基本概念不会随着时间而改变,但实际上,由于多方面的因素如客户需求改变、结构优化、突发情况等的影响,会导致相应业务流程的更改,这种流程的动态变更被称为概念漂移。概念漂移的分析涉及到研究业务流程如何变化,包括检测和定位变化以及研究后者的影响,流程变体分析的目的则是识别和解决由同一流程模型制定的一组流程执行序列所存在的差异。
目前现有方法分别侧重于漂移检测和流程变体分析这两个任务,在这种情况下,从业务分析师的角度来看,将两个孤立的解决方案一起使用既不可行,也没有用处,因此迫切的需要一种集漂移检测和流程变体差异分析于一体的综合方法与系统。
发明内容
本发明的第一目的在于克服现有技术的缺点与不足,提供了一种基于漂移检测的流程变体差异分析方法,突破了现有工作只侧重漂移检测或流程变体差异分析任一孤立任务而缺乏全局观念的局限性,在不增加计算成本的情况下既可以精确地检测到漂移又能对漂移后的流程行为进行准确描述。
本发明的第二目的在于提供一种基于漂移检测的流程变体差异分析系统。
本发明的第一目的通过下述技术方案实现:一种基于漂移检测的流程变体差异分析方法,包括以下步骤:
1)获取标准化事件日志,包括活动名称和活动时间的属性信息;其中,所述事件日志本质上是一组活动序列的有限集合,记录了业务操作的执行情况;
2)以事件日志为输入进行漂移检测,得到多个流程漂移点;
3)根据漂移检测的结果对事件日志进行分割;
4)采用可视化的方法将分割后的两个连续子日志的流程呈现出来;
5)根据步骤4)的结果对两个连续子日志生成的有向图中相对应结点的前驱结点和后继结点的一致性进行比较分析;其中,所述前驱结点为当前结点的上一个结点,后继结点为当前结点的下一个结点。
在步骤2)中,以事件日志为输入进行漂移检测,通过对事件日志中因果活动关系的抽取生成活动关系矩阵,判断活动关系矩阵中相邻窗口关系的变化情况来检测漂移,最终得到一系列流程漂移点,包括以下步骤:
2.1)对事件日志进行活动关系抽取得到一个活动关系矩阵,矩阵的行代表所有的活动关系,矩阵的列代表事件日志中所有轨迹,研究某个具体的活动关系只需要关注矩阵的某一行,研究某条轨迹只需要关注矩阵的某一列,其中所述轨迹表示流程的一次执行,所述活动关系是活动间的因果关系,用→表示:
设轨迹σ∈L,a,b∈σ,a>b成立,b>a不成立,其中轨迹σ=e
2.2)结合每个活动关系在活动关系矩阵中相邻窗口的变化情况检测候选漂移点,其中活动关系矩阵的每一行代表一种活动关系在所有轨迹上的成立情况;若同一活动关系在相邻两个窗口上总是存在或者从不存在,表明此关系在两个窗口上具有不变性;若同一活动关系在相邻两个窗口成立的情况不同,即在给定的窗口内从一个值变为另一个值,则说明流程可能在两个窗口的交点处发生了漂移,该点成为候选漂移点;
2.3)候选漂移点并不一定与流程漂移点相同,但往往分布在流程漂移点附近,因此根据检测到的候选漂移点进行密度聚类,以获得大概率事件下整个流程的漂移点;将检测到的候选漂移点划分为若干点簇,按照簇中点的数量大小进行排序,簇中点的数量越多,则该点簇越有可能代表最终的流程漂移点;通过对簇内所有数据点进行聚合平均,用每个点簇的平均值来表示流程漂移点。
在步骤3)中,根据步骤2)中漂移检测方法得到多个流程漂移点,将事件日志按照流程漂移点划分成多个连续的子日志。
在步骤4)中,采用可视化的方法将分割后的两个连续子日志的流程呈现出来;其中,所述可视化的方法是指将分割后的两个连续子日志中的活动跟随关系用基于有向图的形式来表示,所述活动跟随关系依赖活动间发生的先后顺序,在有向图中用有向箭头来表示,其中,箭头的始端表示先发生的活动,箭头的尾端表示后发生的活动。
在步骤5)中,根据步骤4)的可视化结果对两个连续子日志生成的有向图中相对应结点的前驱结点和后继结点的一致性进行比较分析,有以下三种情况:
第一种:若两个有向图中相对应结点的前驱结点和后继结点完全一致,则表示漂移后的流程变体在此处的活动关系未发生变更,不输出任何结点;
第二种:若两个有向图中相对应结点的前驱结点和后继结点至少有一项不一致,则表示漂移后的流程变体在此处的活动关系发生了变更,标记并输出此结点;
第三种:若对两个有向图遍历后找不到对应结点,则表示漂移后的流程变体的活动关系发生了彻底改变,未有相同结构,标记并输出所有变更的活动结点。
本发明的第二目的通过下述技术方案实现:一种基于漂移检测的流程变体差异分析系统,包括:
日志获取模块,用于获取标准化事件日志,包括活动名称和活动时间的属性信息;其中,所述事件日志本质上是一组活动序列的有限集合,记录了业务操作的执行情况;
漂移检测模块,根据获取的事件日志为输入进行漂移检测,通过对事件日志中因果活动关系的抽取生成活动关系矩阵,判断活动关系矩阵中相邻窗口关系的变化情况来检测漂移;
流程可视化模块,根据检测到的漂移点,将事件日志划分为若干子日志,进而对两个连续子日志的流程进行可视化;其中,所述可视化的方法是指将子日志中的活动跟随关系用基于有向图的形式来表示,所述活动跟随关系依赖活动间发生的先后顺序,在有向图中用有向箭头来表示;
差异分析模块,对两个连续子日志生成的有向图中相对应结点的前驱结点和后继结点的一致性进行比较分析,若两个有向图中相对应结点的前驱结点和后继结点至少有一项不一致,则表示漂移后的流程变体在此处发生了变更,标记并输出此结点,其中,所述前驱结点为当前结点的上一个结点,后继结点为当前结点的下一个结点。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明打破了传统方法抽取大量特征的局限性,仅通过抽取事件日志中的因果关系,便能够有效的检测到漂移,提高了程序效率。
2、本发明对漂移后的连续子日志的流程进行可视化,有利于对漂移后的流程的差异进行直观理解,便于准确描述。
3、本发明提出了一种综合漂移检测和漂移后流程变体差异分析的方法与系统,不需要额外的数据结构和过程模型,简化了处理流程。
4、本发明在不增加计算成本的情况下,能够帮助业务分析人员提取有用的知识,从而更好地理解流程行为。
5、本发明在漂移检测及流程变体差异分析方面具有广泛的使用空间,操作简单,适应性强,在检测和定位分析漂移方面有广阔前景。
附图说明
图1为本发明方法的逻辑流程示意图。
图2为本发明系统的架构图。
图3为本发明漂移检测算法的框架图。
图4为本发明流程变体2的可视化示意图。
图5为本发明流程变体3的可视化示意图
图6为本发明流程变体差异的分析结果示例图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
如图1所示,本实施例公开了一种基于漂移检测的流程变体差异分析方法,包括以下步骤:
1)获取标准化事件日志,包括活动名称和活动时间的属性信息,其中,所述事件日志本质上是一组活动序列的有限集合,记录了业务操作的执行情况。
在本步骤中,获取的标准事件日志是一个贷款申请的业务流程。选取了不同规模的数据来进行测试,具体而言,分别选取了包含2500条,5000条,7500条和10000条轨迹的事件日志来进行实验,其中,所述轨迹表示业务流程的一次执行过程,所示案例是由一组以时间排序的活动组成的。
获取的事件日志信息如表1所示。
表1数据描述
2)以事件日志为输入进行漂移检测,通过对事件日志中因果活动关系的抽取生成活动关系矩阵,判断活动关系矩阵中相邻窗口关系的变化情况来检测漂移,最终得到一系列流程漂移点,漂移检测算法框架图如附图3所示,具体包括以下步骤:
2.1)对事件日志进行活动关系抽取得到一个活动关系矩阵,矩阵的行代表所有的活动关系,矩阵的列代表事件日志中所有轨迹,研究某个具体的活动关系只需要关注矩阵的某一行,研究某条轨迹只需要关注矩阵的某一列,其中所述轨迹表示流程的一次执行,所述活动关系是活动间的因果关系,用→表示:
设轨迹σ∈L,a,b∈σ,a>b成立,b>a不成立,其中轨迹σ=e
2.2)结合每个活动关系在活动关系矩阵中相邻窗口的变化情况检测候选漂移点,其中活动关系矩阵的每一行代表一种活动关系在所有轨迹上的成立情况。若同一活动关系在相邻两个窗口上总是存在或者从不存在,表明此关系在两个窗口上具有不变性;若同一活动关系在相邻两个窗口成立的情况不同,即在给定的窗口内从一个值变为另一个值,则说明流程可能在两个窗口的交点处发生了变化,该点成为候选漂移点。
采用上述步骤逐行分析活动关系矩阵中每种活动关系的变化情况,得可到一系列候选漂移点。
2.3)候选漂移点并不一定与流程漂移点相同,但往往分布在流程漂移点附近,因此根据检测到的候选漂移点进行密度聚类,以获得大概率事件下整个流程的漂移点。将检测到的候选漂移点划分为若干点簇,按照簇中点的数量大小进行排序,簇中点的数量越多,则该点簇越有可能代表最终的流程漂移点。通过对簇内所有数据点进行聚合平均,用每个点簇的平均值来表示流程漂移点。
采用上述步骤,对包含2500条,5000条,7500条和10000条轨迹的事件日志进行实验,检测到的一系列流程漂移点如表2所示。
表2漂移点检测结果
3)根据步骤2)中漂移检测方法得到多个流程漂移点,将事件日志按照流程漂移点划分成多个连续的子日志。
采用上述步骤,以包含2500条轨迹的贷款申请的业务流程为例,由漂移检测方法得到0、250、499、749、880、998、1249、1500、1750、2000、2252共11个漂移点,则整个贷款申请流程的事件日志可分割为12个子日志区间:第1个子日志[0,0),第2个子日志[0,250),第3个子日志[250,499),第4个子日志[499,749),第5个子日志[749,880),第6个子日志[880,998),第7个子日志[998,1249),第8个子日志[1249,1500),第9个子日志[1500,1750),第10个子日志[1750,2000),第11个子日志[2200,2252),第12个子日志[2252,2500)。
4)采用可视化的方法将分割后的两个连续子日志的流程呈现出来,其中,所述可视化的方法是指将分割后的两个连续子日志中的活动跟随关系用基于有向图的形式来表示;所述活动跟随关系依赖活动间发生的先后顺序,在有向图中用有向箭头来表示,其中,箭头的始端表示先发生的活动,箭头的尾端表示后发生的活动,根据有向图能够更直观地分辨相邻变体之间行为的变化。
采用上述步骤,本案例中以包含2500条轨迹的贷款申请的业务流程为例,对分割后的第2个子日志(变体2)和第3个子日志(变体3)进行可视化,输出其可视化流程图分别如附图4和附图5所示,其中,附图4和附图5中结点之间的有向箭头代表活动结点的先后发生关系,即接受贷款申请活动发生后检查申请表的完整性这一活动才发生。
5)根据步骤4)的可视化结果对两个连续子日志生成的有向图中相对应结点的前驱结点(当前结点的上一个结点)和后继结点(当前结点的下一个结点)的一致性进行比较分析,有以下三种情况:
第一种:若两个有向图中相对应结点的前驱结点和后继结点完全一致,则表示漂移后的流程变体在此处的活动关系未发生变更,不输出任何结点;
第二种:若两个有向图中相对应结点的前驱结点和后继结点至少有一项不一致,则表示漂移后的流程变体在此处的活动关系发生了变更,标记并输出此结点;
第三种:若对两个有向图遍历后找不到对应结点,则表示漂移后的流程变体的活动关系发生了彻底改变,未有相同结构,标记并输出所有变更的活动结点。
采用上述步骤,对本案例中选取的两个连续子日志(变体2和变体3)生成的有向图的差异进行比较分析后的部分结果如附图6所示,分析结果表明,变体2与变体3中的增加活动结点、资产评估结点、批准申请结点、检查申请表的完整性结点、查询信用记录结点、准备接受结点、核实还款协议结点、批准贷款申请结点和评估贷款风险结点皆存在差异。
实施例2
如图2所示,本实施例公开了一种基于漂移检测的流程变体差异分析系统,包括:
日志获取模块,用于获取标准化事件日志,包括活动名称和活动时间的属性信息;其中,所述事件日志本质上是一组活动序列的有限集合,记录了业务操作的执行情况;
漂移检测模块,根据获取的事件日志为输入进行漂移检测,通过对事件日志中因果活动关系的抽取生成活动关系矩阵,判断活动关系矩阵中相邻窗口关系的变化情况来检测漂移;若相邻两个窗口关于同一活动关系成立的情况不同,则流程可能在两个窗口的交点处发生了漂移,该点成为候选漂移点。根据检测到的候选漂移点进行密度聚类,可将候选漂移点划分为若干点簇,点簇中包含的候选漂移点越多,则该点簇越有可能为流程的一个最终漂移点,故根据点簇从大到小的顺序进行排序以生成最终的流程漂移点,此处用每个点簇的平均值来表示流程漂移点。
流程可视化模块,根据检测到的漂移点,将事件日志划分为若干子日志,进而对两个连续子日志的流程进行可视化;其中,所述可视化的方法是指将子日志中的活动跟随关系用基于有向图的形式来表示,所述活动跟随关系依赖活动间的发生顺序,在有向图中用有向箭头来表示。
差异分析模块,对两个连续子日志生成的有向图中相对应结点的前驱结点和后继结点的一致性进行比较分析,若两个有向图中相对应结点的前驱结点和后继结点至少有一项不一致,则表示漂移后的流程变体在此处发生了变更,标记并输出此结点,其中,所述前驱结点为当前结点的上一个结点,后继结点为当前结点的下一个结点。
综上所述,在采用以上方案后,本发明提出了一种综合漂移检测和漂移后流程变体差异分析的方法与系统,以事件日志为输入,在检测到漂移后,以漂移后的子日志为基础,对子流程进行可视化,能直观地比较分析相邻变体间发生差异的行为,在不增加计算成本的前提下,能够为业务分析人员提供有价值的见解和帮助,具有实际推广价值,值得推广。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
机译: 形状分析系统,用于三维模型的差异检测系统,相似形状搜索系统,形状分析方法,用于三维模型的差异检测方法,相似形状搜索方法及其存储介质和程序传输设备
机译: 用于检测一种或多种基因差异表达,测量受试物质对一种或多种基因表达的影响的组合,组合物,装置和方法,以及用于筛选预后,操纵预后的方法基因组(genom)对人类或动物而言,而不是动物基因组的表达。调节一种或多种差异表达基因的表达,选择一种或多种动物,并产生抗体,物质,转基因动物,计算机系统,分离和纯化的抗体,试剂盒,用于传达信息的介质。数据和polinucleot u00ecdeo预后者的数据的使用
机译: 一种用于检测至少一个引起压力波非随机持续变化的物体的方法。一种计算机分析方法,用于分析检测到的地震或声波信号,以便检测至少一个在频带F中引起信号非随机持续变化的物体。检测至少一个引起感兴趣的地震或声音信号的物体。一种计算机系统,分析检测到的信号,以便检测至少一个引起感兴趣的信号的物体。计算机模块,分析检测到的信号,以便检测至少一个物体引起感兴趣的信号,该设备程序可以被机器读取。检测至少一个物体引起感兴趣的地震或声音的方法是一种有序的方法和计算机程序