首页> 中国专利> 用于建模在线商务行为和检测异常值的自动化分析系统

用于建模在线商务行为和检测异常值的自动化分析系统

摘要

识别用于网络会话的事件。建立用于自动化网络活动监控的双模块系统。从事件生成模型,并且通过系统的第一模块来识别模型异常值。生成基于事件对于异常值的事件的重要性来识别事件的报告。该模型可以对于网络会话的不同历史时段被自动和周期地再生,并且被保存在存储器装置内。通过系统的第二模块新的组的事件可以被周期地从新的网络会话提取,并且被应用到先前生成的模型。可以从新的组的事件识别模型异常值。可以基于新的事件对于任何识别的异常值的贡献来分析和向网络会话操作员报告该新的事件。即使未检测到异常值,也可以实时地识别和报告对于网络会话操作条件具有最重要的影响的新的事件。

著录项

  • 公开/公告号CN104285212A

    专利类型发明专利

  • 公开/公告日2015-01-14

    原文格式PDF

  • 申请/专利权人 国际商业机器公司;

    申请/专利号CN201380023136.8

  • 发明设计人 M.B.科津;R.I.韦尼格;T.S.鲍威尔;

    申请日2013-02-27

  • 分类号G06F11/34;

  • 代理机构北京市柳沈律师事务所;

  • 代理人邸万奎

  • 地址 美国纽约阿芒克

  • 入库时间 2023-12-17 03:31:48

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-09-12

    授权

    授权

  • 2015-02-11

    实质审查的生效 IPC(主分类):G06F11/34 申请日:20130227

    实质审查的生效

  • 2015-01-14

    公开

    公开

说明书

背景

数据驱动的电子商务环境必须处理极其大量的数据。这些大量数据可以 使得难以监控电子商务系统的一般健康并且回答每天的商务问题,诸如门户 是否正常地运行、或为什么今天的商务与昨天的商务不同、或为什么它与最 后一个星期同一天的商务不同。

数据源可能遍布公司。例如,计算机使用信息可以被公司的信息技术(IT) 部门使用,并且销售信息可以被公司的销售和市场营销部门使用。一些数据 源可以给出相同的结果,而其他数据源可能变得过时并且对商务无影响。所 有这些不同类型的信息可能产生使得在企业系统中的重要商务事件模糊不清 的垃圾效果。

选择性的独立(单变量)统计手段可以试探性地拾取用于在企业系统中 的监控的重要信息源,但是不可识别可能是系统异常的原因的其他重要事件。 监控独立的数据项目也可能产生误报警,其可以减少报告系统的可信度。

附图说明

图1描述了网络会话分析系统的示例。

图2描述了用于建模正常网络消费者活动和识别异常值的示例处理。

图3描述了用于处理网络会话事件的操作的示例。

图4A和4B描述了示出网络会话事件的出现的表格的示例。

图5描述了用于建立用于网络会话数据的主分量模型的处理的示例。

图6A和6B描述了示出用于网络会话模型的主分量的图形的示例。

图7A和7B描述了相对于从网络会话事件产生的模型的两个不同距离的 示例。

图8A-8E描述了识别异常值和异常值之一的事件贡献的图表的示例。

图9描述了用于识别最重要的(significant)贡献事件的处理的示例。

图10描述了用于在实时监控时段识别最重要的贡献事件的处理的示例。

图11描述了用于识别重要的用户界面事件的处理的示例。

具体实施方式

图1描述了分析系统130的示例,该分析系统130自动地生成用于正常 的网络会话活动的模型,并且使用该模型来识别异常值(outlier)和检测重要 的网络会话事件。分析系统130访问从被称为会话档案132的数据库访问存 储的网络会话事件数据118。网络会话事件数据118可以包含在网络会话100 期间关于用户体验的重要信息。然而,如上所述,披露这个信息可能不是直 接的。例如,在在线销售中的降低可能与在某个时段连贯地出现的一组网络 会话事件相关联。在该情况下,实际上不可能通过随意选取(cherry-picking) 和监控独立的事件数据而检测和解释该异常。而且,从会话档案132错误地 选择的其他网络会话事件118可能产生其他错误消息,错误消息阻碍操作员 将特定用户界面事件数据的重要性(significance)与在销售上的降低相关。

分析系统130通过下述方式来处理这些问题:分析整个的一组可获得网 络会话事件,并且自动地仅选择在信息上对于模型重要的那些事件。以这种 方式,分析系统130实际上通过下述方式将与太多的网络会话事件相关联的 问题变为资源(asset):使用大量的不同网络会话事件来产生电子商务系统的 更整体的模型,而且同时隔离异常电子商务系统行为的最可能的起因。

分析系统130产生网络会话模型136,该网络会话模型136建模正常的 运行的网络会话。模型136可以识别在模型空间中的异常值,该异常值指示 不寻常的网络会话操作,并且识别对于异常值具有最高贡献的网络会话事件 142的列表。

网络会话建模也可以最小化误报警的数量。例如,特定事件当被单独分 析时可能看起来是异常值。然而,多变量网络会话模型可以确定这样的网络 会话条件与正常的网站操作相关联,或者可以确定特定的网络会话事件对于 异常的网络会话条件具有很小的重要性。分析系统130也可以识别可能在网 络会话面向中以相同的方式操作但是可能被给出不同的事件名称的复制网络 会话事件。例如,产生相同结果的事件可以不注意地由公司的不同部门创建 的==。可以然后从进一步的捕获操作去除复制事件之一。

网络会话事件

可以在操作在网络服务器102上网络应用104和不同的用户装置110之 间进行网络会话100。网络应用104可以被配置用于任何类型的在线会话, 诸如在线购买或在线金融服务。当然,这些仅是示例,并且可以使用网络应 用104来执行任何类型的基于电子网络的事务或在线活动。

用户装置110可以包括个人计算机(PC)、膝上型计算机、无线个人数字 助理(PDA)、蜂窝电话或以访问网络应用104并且与其交换信息的任何其他 有线或无线装置。应当明白,多个用户装置110可以与网络应用104进行不 同的网络会话100。然而,为了说明的目的,在图1中仅示出一个用户装置 110。

用户装置110可以通过网络连接108与网络应用104进行通信。网络连 接108可以包括通过因特网、无线网络、电话网络、公共服务电话网络(PSTN)、 蜂窝网络、Wi-Fi网络、有线网络、广域网(WAN)或局域网(LAN)等或 其任何组合的连接的任何组合。

在一个示例中,用户装置110可以通过网络连接108向网络应用104发 送超文本传送协议(HTTP)请求。网络应用104可以响应于该HTTP请求而 发回一个或多个网页106,并且用户装置110可以在用户装置110的屏幕上经 由网络浏览器112来显示网页106。用户可以在网络会话100期间生成用户 界面(UI)事件。例如,用户可以在显示的网页106上选择链接或者输入插 入到在显示的网页106内的字段的数据的键击。网络应用104可以响应于用 户界面事件向用户装置110发送另外的网页106和/或响应。

不同的网络会话监控器116和/或120可以在网络会话100期间捕获网络 会话事件118。网络会话事件118可以包括在用户装置110上生成的用户界面 事件和通过在网络会话100和网络应用104之间的网络连接108传送的任何 网络数据。例如,网络会话事件118可以包括从用户装置110向网络应用104 发送的HTTP请求和其他数据请求、以及从网络应用104向用户装置110发 回的网页和其他响应。

可能从不通过网络连接108来传送网络会话事件118的一些。例如,诸 如鼠标点击、键击、向网页字段内输入的字母数字数据或网页图标的选择等 或者其任何组合的用户界面事件的一些可能改变网页106的当前状态,而不 通过网络连接108来发送任何数据。在另一个示例中,来自网页106的仅完 成的信息的一批数据传送可以通过网络连接108被传送到网络应用104。

网络会话事件118的一些可以包括响应于用户界面事件从网络应用104 发送的数据。例如,网络会话事件118可以包括用于填充在先前下载的网页 106中的下拉菜单的航空调度数据。该航空调度数据可能已经响应于用户输 入城市目的地到显示的网页106的航空目的地字段内由网络应用104发送。

其他网络会话事件118可以包括由网络应用104连同网页106向用户装 置110发送的网页逻辑/代码,其进一步确定了在网页中的不同状态或操作。 网页逻辑可以自治地改变用户装置110上的网页106的状态或网络会话100, 而没有曾经通过网络连接108将请求或信息发回网络应用104。

在另一个示例中,一些网络会话事件118可以包括在网页106内的文件 对象模型(DOM)改变。例如,在所显示的网页106的DOM中的改变可以 作为网络会话事件118的一些被UI事件监控器116捕获。在另一个示例中, 网络会话事件118可以包括在用户装置110和/或服务器102中的操作参数和 任何其他登录数据。例如,网络会话事件118可以包括网络带宽指示符、处 理器带宽指示符、网络条件指示符或计算机操作条件等或者其任何组合。

在一个示例中,网络会话监控器120可以捕获网络数据,诸如在用户装 置110和网络应用104之间通过网络连接108交换的网页106、请求、响应 和/或逻辑。用户界面(UI)监控器116可能捕获在用户装置110本地生成的 用户界面事件。在另一个示例中,UI监控器116也可以捕获在用户装置110 和网络应用104之间通过网络连接108交换的网络数据中的一些或全部。

在另一个示例中,UI事件监控器116和/或网络会话监控器120可能没有 捕获实际网络会话事件118的一些或全部,但是可能仅检测一些网络会话事 件118的出现。在这个示例中,监控器116和120可以发送识别网络会话事 件118的出现的唯一标识符,并且可以发送指示何时检测到网络会话事件的 时间戳。

用于捕获和/或识别网络会话事件的系统的示例在如下文件中描述:2001 年9月4日出版的、标题为System and Method for Recording and Visually  REccreating Sessions in a Client-Server Environment的美国专利No.6,286,030, 现在再出版为美国专利No.RE41903;2012年2月28日出版的、标题为Method  and Apparatus for Monitoring and Synchronizing User Interface Events with  Network Data的美国专利No.8,127,000;以及2012年3月13日提交的、标 题为Method and Apparatus for Intelligent Capture of Document Object Model  Events的美国专利申请序列号No.13/419,179,在此通过引用并入其全部内容。

网络会话建模和监控

网络会话建模和监控由两个单独的模块构成:建模和监控。建模模块使 用历史数据来工作,并且建立正常活动的模型。监控模块使用由建模模块保 存的模型,并且使用诸如在最后一个小时期间捕获的网络会话事件的当前的 网络会话数据来工作。

在模型生成阶段期间,分析系统130可以操作模型生成器134,该模型 生成器134用于从与用于网络会话100的历史模型生成时间段相关联的网络 会话事件133生成网络会话模型136。例如,这样的历史时段可以包括关于 网络会话100的最后一至三月的数据。网络会话模型136可以建模用于网络 会话100和操作网络会话100的计算机系统的正常操作条件。

分析系统130可以生成报告140,该报告140列出了正常操作条件的异 常值,并且识别与异常值相关联的网络会话事件142。网络会话模型136也 可以识别哪些网络会话事件142在相关联的异常值中具有最高的影响。

模型生成器134可以选择在会话档案132中的哪些捕获的网络会话事件 133用于生成网络会话模型136。例如,一些网络会话事件118可能与诸如年 度促销的暂时操作条件相关联。这些促销事件可以不与正常在线操作条件相 关联,并且可以从生成模型136和从报告140去除。。

在第二监控阶段期间,分析系统130可以使用网络会话模型136来监控 来自网络会话100的新的网络会话事件138。例如,新的网络会话事件138 可以包括在前几分钟、小时、日、星期等周期地捕获和收集的网络会话事件。 可以在监控时间段上收集每种类型的网络会话事件138的出现的次数。例如, 在最后一个小时的监控时间段期间可以检测到157个在线购买。

用于该监控时间段的网络会话事件138被应用到网络会话模型136,并 且可以在所找到的正常操作模型边界内或作为在模型边界之外操作的异常值 来操作。在模型边界之外的异常值的统计重要性可以被设置为表明异常行为 的一些真实商务原因的值。所检测的异常值报告140被发送到预定义的收件 人的列表。可以在报告140中识别或者对于异常值或对于正常操作时间段的 最有影响的网络会话事件142。

可以在配置文件135中预先配置用于生成模型136和用于识别在模型136 内的异常值的时间段、阈值和其他参数。配置文件135也可以识别在生成模 型136之前去除或从报告140去除的列入黑名单的网络会话事件。

第一建模模块(模块建立)可以或者被人工地执行或被调度来被自动地 执行。在后一种情况下,模型重建的周期性取决于用于模型生成的历史时段 的长度。例如,如果一月的数据用于建立模型,则该可以至少每3个星期或 每月重建该模型。对于第二模块,网络会话监控通常被调度来自动运行,并 且监控的周期取决于聚集粒度。例如,监控器应当调度为每小时运行,如果 网络会话事件每小时聚集。在完全自动模式中,在初始设置后,该系统可以 运行并且提供有价值的商务见解,而没有任何另外的人为交互。

分析系统130可以被配置为匆忙地捕捉和使用新建立的网络会话事件。 在初始设置后,分析系统130可以自动地运行,或者操作员可以选择通过选 择特定的网络会话事件118来人为地建立网络会话模型136。然而,不要求 操作员预选任何网络会话事件118、事实或关于网络会话100的任何其他特 定信息。操作员也不需要人为地相关或分析任何数据分布结果。因此,操作 员不需要人为地在成千上万的可能网络会话事件之间预选以用于分析。

分析系统130提供了用于自动地监控电子商务系统的健康的强大的和容 易使用并且容易理解的系统。可以使用多变量建模来相对于单变量方法增大 可扩展性,因为使用更广泛的多种的网络会话事件118可以建模电子商务系 统的更多的商务方面,并且建立在网络会话100期间的用户体验的更好的整 体表示。

图2描述了用于生成用于系统的第一模块的网络会话模型,即模型建立 的示例处理。在操作148中,分析系统可以在每一个历史建模时间段重建新 的模型。例如,可以每月重建新的模型。在操作150中,可以检查配置文件 以识别用于生成模型的任何模型参数。例如,在图1中的配置文件135中的 参数可以指定用于识别网络会话异常值的阈值水平、关于到网络会话数据的 ODBC连接的细节、用于警报通知的电子邮件服务器配置等。

在操作152中,可以从历史模型时段的会话档案数据库提取网络会话事 件。例如,网络会话事件可以具有相关联的时间戳,并且分析系统可以从时 间戳的最后月份的会话档案提取网络会话事件。在操作154中,处理所提取 的网络会话事件。例如,不是所有的网络会话事件可以每小时出现。通常对 于给定的时间戳在所提取的数据中不存在丢失的事件。操作154包括处理丢 失的事件并且其他数据清理(cleaning)过程。在操作156中,模型生成器可 以从所处理的网络会话事件计算网络会话模型。例如,模型生成器可以从网 络会话事件的出现生成多变量数学模型。

在操作158中,对于网络会话模型检测异常值。例如,通过在模型的正 常操作阈值之外的建模转换来投射与特定时间戳时段相关联的数据点。在操 作158中识别远离(outlying)的时间戳时段。可以在操作160中生成报告, 该报告识别用于所检测的异常值的最重要的网络会话事件。这样的报告包含 异常值时间戳和对于每一个异常值时间戳的最高贡献事件的列表。

在操作162中,所建立的多变量模型连同用于建立模型的所有转换参数 和用于检测异常值的阈值被存储到硬盘驱动器,以供系统的第二模块实时监 控模块随后使用。

图3描述了用于在生成网络会话模型之前处理网络会话事件的示例操作。 在操作170中,从会话档案数据库对于建模时间段提取网络会话事件。会话 档案可以对于任何数据源(包括平面文件)开放。在一个示例中,可以使用 SQL数据库,并且开放数据库连接(ODBC)可以用于到数据库 的连接。

在操作172中,每一个网络会话事件的出现的次数可以在可配置历史时 段的子部分累积。例如,可以在所捕获的历史数据的最后一月上的每一个小 时合计每一个网络会话事件的出现的次数。所合计的网络会话事件可以被分 配相关联的时间戳,并且在表格中被列出。在通过分析系统来处理所合计的 网络会话事件之前,监控系统可以计数网络会话事件的出现次数。

在操作174中,可以将网络会话事件的计数值改造到宽表格内,使得每 行表示特定的时间戳,并且每列表示特定的事件。在该宽表格的列中使用唯 一代码(UNIQUEID(唯一ID)编码的事件变量)表示网络会话事件。

在操作176中,可以过滤网络会话事件。例如,可能在特定的一小时时 段没有特定网络会话事件的出现。未出现被替代地称为不适用(NA)。可以 在操作176中从宽表格过滤仅很少出现的网络会话事件。例如,可以从宽表 格去除具有大于X%的NA值的任何网络会话事件。该X%值可以是在图1 中的配置文件135中指定的可选择值,并且在一个示例中可以具有X=50% 的默认值。其基本原理是从正常行为而不是异常行为建立模型。操作员可以 在单独的基础上监控稀少但是重要的事件。在这些操作后的所有剩余的NA 值被替换为0,表示对应的事件的零出现。

在操作178中,一些网络会话事件可以从网络会话模型生成、监控和/或 报警去除。例如,使用不足的信用来兑换现金红利的尝试可能引起网络会话 事件之一。该事件可能作为专门市场营销活动的结果而在异常计数水平处被 解除。大量的这些事件可能使得网络会话模型生成不必要的警告。为了避免 烦人的警告,用户可以暂时将该事件加到黑名单。

如果在与营销活动重叠的历史上时段期间被建立,则网络会话模型可能 太讨厌,并且允许太多的异常值通过而未被注意。在任何一种情况下,操作 员可以将网络会话事件列入黑名单,以防止模型识别通常与正常的网络会话 操作相关联的异常值。可以在操作180中使用剩余的网络会话事件,以生成 网络会话模型。

在操作182中,可以识别复制的网络会话事件。例如,一些网络会话事 件可以具有不同的唯一标识符,但是可以表示同一网络会话事件。例如,在 企业中的两个不同的部门可能已经建立了用于捕获同一网络会话数据的两个 不同的事件。在操作182,所识别的网络会话事件可以在网络会话模型的建 立期间被识别,并且被显示给操作员。操作员可以重新配置监控系统,使得 复制事件之一不再被捕获和存储在会话档案中。这可以减少用于捕获、存储 和分析复制的网络会话事件的处理量。

图4A描述了第一表格190的示例,用于识别网络会话事件在从数据库 的提取后原样在特定的一个小时的时间段中的出现。在这个示例中,列192 识别小时长的时间段。列193列出了与不同的网络会话事件的每一个相关联 的唯一标识符。列196列出了在列190中识别的小时长的时间段不同网络会 话事件的每一个的出现的次数。

图4B描述了第二宽表格的示例,该第二宽表格列出在数据改造处理174 之后对于整个历史建模时段的所有网络会话事件。例如,行202可以列出在 2011年10月29日晚上7:00开始的第一个一小时时间段中不同网络会话事件 的每一个的出现的次数,如前在图4A的表格190中所示。列204列出了在 历史建模时段期间的所有单独的一小时时间段,该历史建模时间段在一个示 例中可以是一个月。列206列出了在列204中列出的一小时时间段的每一个 网络会话事件的每一个的出现次数。

例如,被分配唯一标识符V.1的网络会话事件在2011年10月30日凌晨 2:00处开始的一小时时间段期间有284,262次出现。在另一个示例中,被分 配唯一标识符V.22的网络会话事件在2011年10月29日晚上11:00、2011年 10月30日凌晨3:00和2011年10月30日凌晨5:00处开始的一小时时间段 期间有0次出现。网络会话事件V.22在图4B上显示的时段期间具有几个NA, 但是仍然通过了稀疏滤波器,并且被包括在数据建模和监控处理中。

图5描述了用于生成网络会话模型的处理的示例。在操作220中,可以 归一化网络会话事件的出现的次数。如上所述,网络会话模式可以表示正常 的网络会话行为。对于不同的网络会话事件,正常范围或出现可能不同。例 如,每小时第一网络会话事件的出现的正常平均次数可以是10,000。并且每 小时第二网络会话事件的出现的正常平均次数可以是5。因此,可以在操作 220中归一化事件计数以便以平均值为中心,并且范围落在0和1之间。

在操作222,可以对于网络会话事件的归一化出现计算协方差矩阵,并 且在操作224中,从该协方差矩阵计算本征向量。该协方差矩阵的本征向量 提供用于网络会话模型的主分量。

在操作226中,对于数据执行交叉验证。交叉验证可以包括在时间戳时 段的一些中的数据(时间戳数据)的重复排除和在向剩余的数据集应用主分 量后保留的总方差比的计算。该过程允许估计与模型的预测力相反的渗透到 网络会话模型内的噪声的水平。交叉验证结果也可以用于确定模型的主分量 的最佳数量。

在操作228中选择了模型的主分量的数量。可以基于不同的标准来选择 主分量的数量。例如,主分量的数量可以基于达到诸如默认值85%的预定义 量的保留方差比。替代地,可以确定主分量的数量以最大化如交叉验证处理 226披露的模型的预测力。归一化数据、计算协方差矩阵和本征向量、交叉 验证数据和从数据选择主分量是在数据处理中本领域技术人员已知的操作。

用于生成模型的下面描述的一些操作可以使用现有的软件系统被人工执 行,并且可以在以下文件中更详细地描述:L.Eriksson、E.Johansson、 N.Kettaneh-Wold、J.Trygg、C.Wikstroem、S.Wold的"Multi-and Megavariate Data  Analysis"2006,Umetrics(Eriksson),其通过引用被并入在此。为了建立系统 的完全自动化建模分量,原始软件被开发为实现所述的算法。

图6A描述了时间戳数据的相关的方差比240的示例直方图。相关的方 差比240随着被加到网络会话模型的每一个新主分量稳定地增长。每个主分 量是网络会话事件的加权线性组合。

第二直方图表示交叉验证242,并且指示网络会话模型的预测力。在数 据中的噪声可以降低相对的相关方差比。在一个示例中,可以计算主分量, 直到交叉验证比242达到相关的方差比的预定义阈值部分。例如,可以增加 主分量,直到交叉验证比242达到相关的方差比240的默认值85%。这可以 指示这样的阈值,其中另外的主分量可以仅向网络会话模型增加噪声,并且 显著地减小模型的预测力。

图6B描述了观察数据向由来自网络会话模型的前两个主分量限定的二 维平面上的投射。元素244表示具有时间戳的网络会话事件观察,并且椭圆 243表示被投射到同一平面上的统计置信椭圆。默认置信级可以是95%,意 味着在椭圆之外的所有观察点表示具有95%置信级的统计异常活动。位于椭 圆243之外的任何元素244可以因此进一步作为可能的异常值被调查。

实际上,不在象在图6B上所示的那样的投射平面上而是在整个主分量空 间中执行异常值检测。两个公式可以用于生成在用于异常值检测的多变量主 分量空间中的阈值。

第一模型基于在模型空间中的霍特林T2距离的概念。让我们将模型主分 量的总数表示为A,并且将在宽表格中的具有时间戳的网络事件观察的总数 表示为N。用于第i个观察的霍特林T2距离被定义为:

Ti2=Σa=1Asta2tia2

其中,ta是模型分数向量,并且是ta的方差。在Eriksson等人的文献 中描述了满足具有A和(N-A)的自由度的F分布。因此,可 以将用于具有95%的置信级的异常值检测的阈值计算为:

Tthreshold2=A(N2-1)/N(N-A)Fcritical(p=0.05)

第二标准基于相对于模型的距离的概念。如果K表示包括到向模型中的 网络事件的总数,则用于第i观察的相对于模型的归一化的距离被定义为:

DModXt=st/s0

si=Σkeik2(K-A)

s0=ΣΣeij2(N-A-1)(K-A)

其中,E={eij}是模型的剩余矩阵。可以基于下述事实来确定DmodX的阈值: si2/s02满足具有观测和模型的自由度的F-分布。

图7A描述了霍特林T2模型的可视表示,该了霍特林T2模型识别在具有 在图6A中识别的最佳数量的主分量的模型空间内的元素246的距离。椭圆 250表示由霍特林T2距离的阈值限定的模型边界。图7B描述了DmodX模型 的可视表示,该DmodX模型识别元素246相对于模型空间的距离。在图7B 中的平面DC2表示在观察的K维空间中的A维主分量子空间。每一个平面 DC1和DC3表示在用于通过距离至模型方法来检测异常值的模型空间周围的 DmodX阈值。

在图7A和7B的两个模型空间中的元素246代表时间戳数据观察并且时 间戳数据观察表示诸如一小时时间段的给定时间戳时段的网络会话事件的集 合。当相关联的距离延伸在图7A中的霍特林T2的阈值250之外或在图7B 中的与DmodX模型相关联的阈值之外时,观察248可以被识别为异常值。 用户可以在图1的配置文件135中指定阈值倍数。如果需要,则阈值倍数可 以用于控制异常值通知的量。

图8A描述了图表260的示例,该图表260具有用于识别不同时间戳的y 轴和用于识别在图7A中所示的模型的时间戳的霍特林T2距离的x轴。第二 图表(未示出)可以以相同的方式识别时间戳和时间戳到图7B中所示的 DmodX模型的模型空间的距离。在图表260中阈值264表示霍特林T2模型 的边界。时间戳异常值266可以是在对于霍特林T2模型定义的统计阈值264 以上的任何点。几个连续的远离的时间戳262可以被看作具有几个小时的持 续时间的一个异常值。在延长的异常值的情况下,具有最大距离的时间戳可 以用于下述的最重要贡献者分析。

图8B描述了贡献图表270的示例,其示出不同网络会话事件对于在图 8A中所示的时间戳异常值266的相对贡献。在图表270中的x轴表示不同网 络会话事件,并且y轴表示不同的网络会话事件对于在图8A中的时间戳异 常值266的归一化贡献。例如,图表270可以识别网络会话事件的每一个对 于一小时时间戳异常值266的加权贡献。如图8B中所示,网络会话事件V60 具有最大贡献,并且网络会话事件V1242具有第二大贡献。

图8C描述了图表280,其也示出网络会话事件对于在图8A中的时间戳 异常值266的贡献。在这个示例中,y轴识别网络会话事件,并且x轴以对 于异常值266的贡献的降序识别不同的网络会话事件。超过预定义数量的大 于图表280的平均值的标准偏差的对于异常值的最重要贡献者被称为顶部贡 献者。如果没有这样的事件,则可以将最大贡献者看作单个顶部推进器 (mover)。

图8D描述了表格290的示例,其示出了用于在图8A中的时间戳异常值 266的顶部贡献的网络会话事件292。网络会话事件292可以以对于异常值 266的霍特林T2距离的贡献量的顺序列出在表格290中,并且可以表示下述 网络会话事件,该网络会话事件在使得网络会话在正常操作条件之外操作中 具有最大的影响。网络会话事件V.60被识别为对于在图8A中的异常值266 具有最重要的贡献,并且网络会话事件V.1242被识别为对于异常值266具有 第二最重要的贡献。

例如,最重要网络会话事件V.60可以与指示未找到出租车车费的错误消 息相关联,第二最重要网络会话事件V.1242可以与请求用户选择搭乘时间的 错误消息相关联,第三最重要事件可以与请求用户选择下车时间的错误消息 相关联,并且第四最重要事件可以指示用户已经在某个限定的时间段之外连 接到网络应用。

图8E描述了图表294的示例,其绘制了对于在图8A中的时间戳异常值 266贡献的最重要网络会话事件V.186之一。可以对于最重要的网络会话事件 计算经典的单变量Shewart控制图表。可以对于已经找到的异常值并且仅为 了示范的目的计算单变量控制图表。这是在多变量建模和传统单变量控制之 间的一个主要差别:通过多变量建模来找到异常值,并且可以仅在报告阶段 执行图表。可以使用红色方框来标注与时间戳异常值266相关联的网络会话 事件V.186的出现296的时间和次数。可以对于其他重要贡献者292绘制另 外的图表,并且可以与事件V.186类似地标注时间戳和与时间戳异常值266 相关联的出现的次数。

图9汇总了用于识别对于时间戳异常值的最重要贡献者的操作。在操作 300中,通过多变量网络会话建模来识别异常值。在操作302中,计算网络 会话事件对于时间戳异常值的贡献。在操作304中,如图8C中所示识别最重 要的网络会话事件贡献者。在操作306中,可以以识别与时间戳异常值相关 联的网络会话事件的出现的时间和次数的图表绘制最重要的网络会话事件。

图10描述了系统的第二模块的示例,该第二模块使用正常网络会话活动 的先前建立的多变量模型来提供网络会话的实时监控。在操作348中,由第 一模块先前保存的多变量模型被导入到第二模块内。在操作350中,该分析 系统以与如上所述的先前用于生成网络会话模型者相同的方式来从会话档案 数据库提取网络会话事件。然而,网络会话事件可以仅持续当前的监控时间 段,而不是整个历史时间段。例如,取代使用一月的用于生成模型的网络会 话事件,可以从会话数据库仅提取最后一小时的网络会话事件。

在操作352中,提取的网络会话事件以与上述相同方式处理,其中第一 模块生成网络会话模型。例如,可以将该最后一小时的网络会话事件的出现 改造以产生使用模型参数归一化、过滤和转换的单行矩阵。在操作354中, 向网络会话模型应用所处理的网络会话事件。保存的参数的应用保证通过被 应用用于模型建立的相同方法来精确处理新提取的网络会话事件。

在操作356中,可以对于在模型空间中的时间戳元素计算两个相对于模 型的指示距离。例如,可以对于用于表示一小时监控时段的时间戳计算相对 于模型的霍特林T2和DmodX距离,并且然后将其与恢复的阈值作比较。如 果该距离在任何一个相对于模型的距离的阈值之外,则将时间戳识别为异常 值。在操作358中,可以产生报告,该报告识别对于时间戳事件的最重要的 网络会话事件贡献者。

通过被存储到在图1上的配置文件135内的参数来控制异常值通知处理。 该文件除了别的之外包含负责异常值通知响应的人的电子邮件服务器配置和 电子邮件地址。该配置文件也可以包含详细参数,该参数控制应当向系统应 用的通知的水平。当前的时间戳可以是或可以不是异常值。在操作358中, 分析系统仍然可以在报告中列出最重要的N个推动器,并且在图形中绘制最 重要的网络会话事件。如果在操作360中时间戳元素不是异常值,则可以以 第一颜色来显示识别顶部推动器的图形。如果详细参数等于2(高),则可以 向在配置文件中识别的收件人发送信息电子邮件。如果在操作360中将时间 戳识别为异常值,则可以以第二颜色显示识别顶部推动器的图形,并且警报 消息可以发送到操作362中的通信电子邮件收件人。例如,当未识别异常值 时,可以将该报告和图形使用电子邮件发送到市场营销人员,并且当识别异 常值时,也可以将报告使用电子邮件发送到IT人员和管理人员。

因此,分析系统在引起异常网络会话操作中识别具有最高影响的网络会 话事件。可以不周期地监控和/或报告较不重要的网络会话事件。如上所述, 如果操作员知道诸如一天促销的一些事件已知为建立异常系统操作条件,则 可以从报告排除那些事件。

该建模和监控模块可以作为自主脚本被自动地操作。在一个示例中,该 脚本可以被调度来自动地运行用于建立该模型的历史建模时间段的大约一半。 例如,如果将网络会话事件保留一个月,则可以每2-3星期自动地刷新网络 会话模型。也可以将监控时段编程为自动地生成可编程的时间段的报告,诸 如所捕获的网络会话事件的每一小时。模型偏离的任何其他指示器可以用于 更新该模型。例如,在不寻常的网络会话活动后,诸如在市场营销促销后或 在假日后,可以自动更新模型。

图11描述了如何可以识别重要用户界面事件的一个示例。可以在历史模 型生成时段或更频繁的监控时段捕获一组用户界面事件380。用户界面事件 可以包括选择购买按钮图标380A、点击链接#1380B、向字段#5380C内输 入字符、选择产品结帐图标按钮380D和点击链接#6380E。这些当然仅是可 以在网络会话期间捕获的任何用户界面事件的示例。

对于每个用户界面事件380的出现次数计数,并且如上所述处理该出现。 所处理的用户界面事件可以用于生成网络会话活动模型382,并且/或者可以 被应用到现有的网络会话模型382。识别用于用户界面事件380的时间戳数 据点距离,并且如上所述确定用户界面事件380对于所得出的距离的重要性。 时间戳数据观察可以或可以不被识别为异常值。

可以生成报告384,其将用户界面事件380以它们对于相对于模型的时 间戳观察距离的重要性的顺序列出。例如,用户界面事件380C可能已经被识 别为对于时间戳具有最重要的影响。用户界面事件380A的出现可能已经被 识别为对于时间戳具有第二最重要的影响,并且用于选择产品标签的用户界 面事件380F的出现可能已经被识别为具有第三最重要影响。如果时间戳观察 被识别为异常值,则可以将警告连同报告384发送。

最重要的用户间界面事件380可以提供关于哪些用户界面事件最可能引 起异常网络会话操作的信息,或者可以识别对于正常的网络会话操作用户最 难成功地完成的用户界面事件。例如,最重要的用户界面事件380可以与不 导致在线购买的网络会话相关联。报告384的结果可以用于消费者体验分段。 例如,与特定网络浏览器相关联的用户界面事件可以被分段和分析以确定用 户操作错误是否可以与特定网络会话环境相关联。

可以基于报告384来启动其他操作。例如,可以重放与异常值相关联的 网络会话的一部分。与异常值相关联的网络数据的至少一些可以以与在网络 会话期间出现的基本相同顺序,与重放关联于异常值的用户界面事件中的至 少一些同步。重放可以提供关于为什么网络会话在正常的操作边界之外操作 的另外的信息。在已经通过引用被整体并入在此的美国专利No.RE41903和 美国专利No.8,127,000中描述了捕获和重放网络会话事件,在此通过引用并 入其全部内容。

如上所述的系统和设备可以使用专用处理器系统、微控制器、可编程逻 辑装置、微处理器或其任何组合来执行在此所述的操作的一些或全部。可以 以软件实现如上所述的操作的一些,并且可以以硬件来实现其他操作。可以 通过与在此和参考附图所述的那些大体类似的设备、装置和/或系统来执行在 此所述的操作、处理和/或方法的一个或多个。

处理装置可以执行在存储器中存储的指令或“代码”。该存储器也可以存 储数据。处理装置可以包括但是可以不限于模拟处理器、数字处理器、微处 理器、多核处理器、处理器阵列或网络处理器等。该处理装置可以是集成控 制系统或系统管理器的一部分,或者可以被提供为便携电子装置,该便携电 子装置被配置为与联网系统本地地或经由无线传输远程地对接。

处理器存储器可以与处理装置集成在一起,例如在集成电路微处理器等 内布置的RAM或快闪存储器。在其他示例中,存储器可以包括独立装置, 诸如外部盘驱动器、存储阵列或便携式闪存密钥卡等。该存储器和该处理装 置可以例如通过I/O端口或网络连接等可操作地彼此耦合或彼此进行通信, 并且该处理装置可以读取在存储器上存储的文件。相关联的存储器可以依据 许可设置故意地是“只读”,或不是。其他存储器可以包括移动部分,诸如传 统旋转盘驱动器。所有这样的存储器可以是“机器可读的”,并且可以被处理 装置可读取。

可以以存储的计算机软件(也称为“计算机程序”或“代码”)的有形形 式来实现或体现操作指令或命令。程序或代码可以被存储在数字存储器中, 并且可以被处理装置读取。“计算机可读存储介质”(或者替代地,“机器可读 存储介质”)可以包括所有前述类型的存储器以及未来的新技术,只要该存储 器能够至少暂时地存储以计算机程序或其他数据的本质的数字信息,并且只 要所存储的信息可以被适当的处理装置“读取”。术语“计算机可读”可以不 限于“计算机”的历史使用,以暗示完整的大型计算机、微计算机、台式或 甚至膝上型计算机。而是,“计算机可读”可以包括可以被处理器、处理装置 或任何计算系统可读的存储介质。这样的介质可以是可以被计算机或处理器 本地和/或远程地可访问的任何可用介质,并且可以包括易失性和非易失性介 质与可装卸和非可装卸介质或其任何组合。

在计算机可读存储介质中存储的程序可以包括计算机程序产品。例如, 存储介质可以被用作存储或传送计算机程序的传统手段。为了方便,可以将 操作描述为各种互连或耦合的功能框或图。然而,可能有下述情况:其中, 这些功能块或图可以利用不清楚的边界等同地聚集到单个逻辑装置、程序或 操作。

已经描述和例示了各个示例的原理,但是应当显然,在不偏离这样的原 理的情况下,可以在布置和细节上修改该示例。我们要求保护在权利要求的 精神和范围内的所有修改和变化。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号