首页> 中国专利> 基于贝叶斯方法的互联网应用服务监控系统及方法

基于贝叶斯方法的互联网应用服务监控系统及方法

摘要

本发明公开了一种基于贝叶斯方法的互联网应用服务监控系统及方法,所述监控系统包括检测装置和分析装置,所述监控方法包括:检测装置循环访问目标服务器;检测访问返回结果是否正确,如正确则目标服务器正常,如不正确则检测装置采用贝叶斯方法计算故障概率,并向分析装置报告;分析装置生成故障分析结果,如果全部检测装置均报告故障,则目标服务器发生故障;如果仅同一异构网络中全部检测装置均报告故障,则该异构网络发生故障;如仅有部分检测装置报告故障,则通信链路发生故障。本发明充分考虑到互联网的不稳定性和不可靠性,使用贝叶斯方法预测访问失败时发生故障的概率,有效地降低了故障的误报率,排除随机因素对故障判断的干扰。

著录项

  • 公开/公告号CN102932194A

    专利类型发明专利

  • 公开/公告日2013-02-13

    原文格式PDF

  • 申请/专利权人 中国银行股份有限公司;

    申请/专利号CN201110226897.6

  • 申请日2011-08-09

  • 分类号H04L12/26(20060101);

  • 代理机构11225 北京金信立方知识产权代理有限公司;

  • 代理人黄威;孙丽梅

  • 地址 100818 北京市西城区复兴门内大街1号

  • 入库时间 2024-02-19 18:13:15

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-08-12

    授权

    授权

  • 2013-03-20

    实质审查的生效 IPC(主分类):H04L12/26 申请日:20110809

    实质审查的生效

  • 2013-02-13

    公开

    公开

说明书

技术领域

本发明涉及互联网应用服务监控领域,尤其涉及一种基于贝叶斯 方法的互联网应用服务监控系统及方法。

背景技术

互联网是由多个异构网络构成的,访问者也分布在异构网络中。 对用户分布广泛的互联网应用,通讯链路复杂多变,链路故障可能出 现在传输中的任何一个环节,其中,涉及互联网传输的链路故障较难 从内部第一时间响应。

由于互联网本质上不是一个高可靠、高稳定的网络,数据传输容 易受到各种因素的干扰。互联网中,对持续不断的循环访问,访问失 败是经常发生的。访问失败并不代表出现故障或拥塞,可能仅仅是受 一些临时性因素的干扰。因此,对每次访问失败,都应当评估故障发 生的概率,并充分考虑互联网的不稳定性和不可靠性,以及异构网络 的独特性以此提高故障预警的准确率。

发明内容

为了解决现有技术的上述问题,本发明的目的是提供一种能够监 控互联网用户访问目标服务器的真实情况,获取对不同网络中的通信 链路性能参数,以及检测目标服务器或通信链路故障的基于贝叶斯方 法的互联网应用服务监控系统及方法。

为了实现上述目的,本发明提供了一种基于贝叶斯方法的互联网 应用服务监控系统,其包括:

检测装置,设置在组成互联网的每个异构网络中,用于访问目标 服务器;和

分析装置,其与每个所述检测装置均通过通讯链路互通数据,

所述检测装置包括检测策略配置模块、访问检测模块、日志模块、 第一判断模块、计算模块和数据传输模块,

所述分析装置包括数据接收模块、数据分析模块、第二判断模块、 第三判断模块、注册模块、第一通讯模块和数据库,其中,

所述注册模块形成为对每个所述检测装置的信息进行注册;

所述检测策略配置模块形成为配置每个所述检测装置对所述目标 服务器的访问频率;

所述访问检测模块形成为控制每个所述检测装置按照各自配置的 访问频率循环访问所述目标服务器,并采集访问参数,生成访问记录;

所述第一判断模块形成为判断每个所述检测装置的返回结果是否 正确,返回结果正确时,所述日志模块将所述访问记录记入日志,并 继续进行下一次访问;返回结果不正确时,所述计算模块按所述分析 装置提供的该检测装置的关键参数来计算故障概率;

所述第二判断模块形成为判断所述故障概率是否大于阈值,如果 故障概率大于阈值,则所述数据传输模块将故障概率传送至所述分析 装置;

所述日志模块形成为将访问记录记入日志或从日志中读取访问记 录;

所述数据分析模块形成为计算所述返回结果不正确的检测装置的 关键参数,以及分析所述返回结果不正确的检测装置回传的故障概率, 判断是否为故障;

所述计算模块形成为按所述分析装置提供的检测装置的关键参数 利用贝叶斯方法计算故障概率;

所述数据传输模块形成为向所述分析装置传送一定时间段内的访 问记录,以及将发生访问故障时的故障概率传送至所述分析装置;

所述数据接收模块形成为接收所述数据传输模块传送来的一定时 间段内的访问记录,以及发生访问故障时所述检测装置传送来的故障 概率,并存储于所述数据库中;

所述第三判断模块形成为统计给定时段报告的所有故障的频率和 次数,生成故障分析结果;如果全部检测装置均报告故障,则判定所 述目标服务器发生故障;如果仅同一异构网络中全部检测装置均报告 故障,则判定该异构网络发生故障;如仅有部分检测装置报告故障, 则判定通信链路发生故障;

所述第一通讯模块形成为将所述第三判断模块生成的故障分析结 果发送出去;

所述数据库形成为存储所述数据接收模块接收到的所述访问记录 和发生访问故障时的故障概率。

作为优选,所述检测策略配置模块所配置的所述访问频率为每隔 60秒进行一次访问。

作为优选,所述数据分析模块计算所述返回结果不正确的检测装 置的关键参数的方法为:

在给定时间段内,对每个所述检测装置,假设事件A为目标服务 器发生故障,事件B为访问失败,其中Bi指连续i次访问失败,Bnext指下一次访问失败,则

P(Bi)=P(Bi-1)P(Bnext|Bi-1),

其中,

所述计算模块利用贝叶斯方法计算的连续i次访问失败时所述目 标服务器的故障概率P(A|Bi)为:

P(A|Bi)=P(Bi|A)P(A)P(Bi).

作为优选,所述检测装置还包括通讯模块,其形成为当所述故障 概率接近于1时,通过Email或短信发出通知。

本发明同时提供了一种基于贝叶斯方法的互联网应用服务监控方 法,包含以下步骤:

步骤A:在组成互联网的每个异构网络中设置用于访问目标服务器 的检测装置,同时设置一个与每个所述检测装置均通过通讯链路互通 数据的分析装置,对每个所述检测装置的信息在所述分析装置中进行 注册;

步骤B:配置每个所述检测装置对所述目标服务器的访问频率;

步骤C:控制每个所述检测装置按照各自配置的访问频率循环访问 所述目标服务器,并采集访问参数,生成访问记录;

步骤D:判断每个所述检测装置的返回结果是否正确,返回结果正 确时,将所述访问记录记入日志,并继续进行下一次访问;返回结果 不正确时,按所述分析装置提供的该检测装置的关键参数利用贝叶斯 方法计算故障概率,判断所述故障概率是否大于阈值,如果故障概率 大于阈值,则将故障概率传送至所述分析装置;

步骤E:所述分析装置接收到所述返回结果不正确的检测装置传送 来的故障概率后,统计给定时段报告的所有故障的频率和次数,生成 故障分析结果;如果全部检测装置均报告故障,则判定所述目标服务 器发生故障;如果仅同一异构网络中全部检测装置均报告故障,则判 定该异构网络发生故障;如仅有部分检测装置报告故障,则判定通信 链路发生故障。

作为优选,所述步骤A中,在每个异构网络中设置三个所述检测 装置。

作为优选,所述步骤A中,注册的所述检测装置的信息包括检测 装置所在的网络类型,以及检测装置的IP地址和CPU ID。

作为优选,所述步骤D中,返回结果不正确时,按所述分析装置 提供的该检测装置的关键参数利用贝叶斯方法计算故障概率具体为:

在给定时间段内,对每个所述检测装置,假设事件A为目标服务 器发生故障,事件B为访问失败,其中Bi指连续i次访问失败,Bnext 指下一次访问失败,则连续i次访问失败时所述目标服务器的故障概 率为:

其中,P(A)、P(Bi)和P(Bi|A)为所述分析装置 提供的该检测装置的关键参数,

P(Bi)=P(Bi-1)P(Bnext|Bi-1),

其中,

作为优选,所述步骤D中,所述阈值为0.75。

作为优选,所述步骤C中,所述访问记录包括访问时间、响应时 间和返回结果。

与现有技术相比,本发明具有以下有益效果:

(1)检测装置部署在真实的互联网中,模拟用户访问目标服务器, 测试各种不同的网络提供商的通讯质量,采集的数据真实可靠,具备 很好代表性,并且互联网访问的性能评估准确,目标服务器故障定位 精准快速;

(2)充分考虑到互联网的不稳定性和不可靠性,以及异构网络的 独特性,使用贝叶斯方法预测访问失败时发生故障的概率,有效地降 低了误报率,排除随机因素对故障判断的干扰,使得故障报告较为准 确;

(3)检测装置与分析装置相互独立运作,一方故障、升级、更改 不会影响整个系统的运转,有效地保证了系统运转的稳定性,系统的 稳定性、可维护性、可靠性大为增强。

附图说明

图1为本发明的基于贝叶斯方法的互联网应用服务监控系统的结 构示意图。

图2为图1所示的监控系统的检测装置对目标服务器的一次访问 流程示意图。

图3为图1所示的监控系统的分析装置处理故障的流程示意图。

图4为本发明的基于贝叶斯方法的互联网应用服务监控方法的流 程示意图。

具体实施方式

下面结合附图对本发明的实施例进行详细说明。

图1为本发明的基于贝叶斯方法的互联网应用服务监控系统的结 构示意图。如图1所示,本发明提供的基于贝叶斯方法的互联网应用 服务监控系统包括检测装置和分析装置,所述检测装置分布在组成互 联网的各个异构网络中,用于对目标服务器进行嗅探性访问,以测试 各种不同网络的通讯质量,其中网络1、网络2和网络3中各设有三个 检测装置,每个检测装置均通过通讯链路与分析装置互通数据。

每个所述检测装置均包括检测策略配置模块、访问检测模块、日 志模块、第一判断模块、计算模块和数据传输模块,所述分析装置包 括数据接收模块、数据分析模块、第二判断模块、第三判断模块、注 册模块和数据库,其中,

所述注册模块,用于对每个检测装置的信息进行注册,每个检测 装置都要在分析装置进行注册才可运行,注册在服务器中的检测装置 的信息包括检测装置所在的网络类型,以及检测装置的IP地址和CPU ID等。

所述检测策略配置模块,包括一个内含访问间隔参数的配置文件, 用于配置每个所述检测装置对所述目标服务器的访问频率,如访问频 率为每个所述检测装置均为每隔60秒对所述目标服务器进行一次访 问;

所述访问检测模块,用于控制每个所述检测装置按照各自配置的 访问频率循环访问所述目标服务器,并采集每次访问的参数,生成访 问记录,访问记录包括访问时间、响应时间和返回结果等内容;

所述第一判断模块,用于检测每个所述检测装置的返回结果是否 正确,返回结果正确的检测装置将所述访问记录记入日志,并继续进 行下一次访问;返回结果不正确的检测装置按所述分析装置提供的该 检测装置的关键参数计算故障概率;

所述第二判断模块,用于判断所述故障概率是否大于阈值,在本 实施中阈值取0.75,如果故障概率大于阈值,则该检测装置将故障概 率传送至所述分析装置,并将所述访问记录记入日志,然后继续进行 下一次访问,如果故障概率不大于阈值,则该检测装置将所述访问记 录记入日志,并继续进行下一次访问;

所述日志模块,用于将访问记录记入日志或从日志中读取访问记 录;提供了访问记录与日志文件的双向映射功能,访问记录产生后, 记录于日志中,当需要调取历史访问记录时,则从日志中读取;

所述数据分析模块,用于计算所述返回结果不正确的检测装置的 关键参数,以及分析所述返回结果不正确的检测装置回传的故障概率, 判断是否为故障;使用每个检测装置的历史访问记录,单独计算其关 键数据指标,具体关键数据指标及计算方法为:

在给定时间段内,对每个所述检测装置,假设事件A为目标服务 器发生故障,事件B为访问失败,其中Bi指连续i次访问失败,Bnext指下一次访问失败,则

P(Bi)=P(Bi-1)P(Bnext|Bi-1),

其中,

所述计算模块,用于按所述分析装置提供的检测装置的关键参数 利用贝叶斯方法计算故障概率,连续i次访问失败时所述目标服务器 的故障概率为:

P(A|Bi)=P(Bi|A)P(A)P(Bi);

所述数据传输模块,用于向所述分析装置传送一定时间段内的访 问记录,以及将发生访问故障时的故障概率传送至所述分析装置,一 条访问记录为一次访问的相关参数;

所述数据接收模块,用于接收所述数据传输模块传送来的一定时 间段内的访问记录,以及发生访问故障时所述检测装置传送来的故障 概率,并存储于所述数据库中;一条访问记录包括的内容有检测装置 序号、所属网络、访问时间、响应时间、返回结果、目标服务器状态 等参数;

所述第三判断模块,用于统计给定时段报告的所有故障的频率和 次数,生成故障分析结果;如果全部检测装置均报告故障,则判定所 述目标服务器发生故障;如果仅同一异构网络中全部检测装置均报告 故障,则判定该异构网络发生故障;如仅有部分检测装置报告故障, 则判定通信链路发生故障;

所述第一通讯模块,用于将所述第三判断模块生成的故障分析结 果通知联系人;

所述数据库,用于存储所述数据接收模块接收到的所述访问记录 和发生访问故障时的故障概率。

此外,每个所述检测装置还包括自检模块,用于检测每个所述检 测装置自身运行情况,检测装置为一台网络拓扑结构中的终端,一般 为安装了检测系统的PC,如为PC,则运行指标有CPU占用、内存使 用、网络使用和硬盘使用等;以及第二通讯模块,用于所述故障概率 接近于1时,直接通过Email或短信通知联系人

所述分析装置还包括数据可视化模块,用于显示故障分析结果, 如故障概率波动图和响应时间波动图。

图2为图1所示的监控系统的检测装置对目标服务器的一次访问 流程示意图。如图2所示,检测装置对目标服务器的一次访问流程包 括如下步骤:

1、检测装置访问目标服务器;

2、如果返回值为目标服务器运转正常,则转向步骤3;如果返回 值为目标服务器不正常,或无返回,则转向步骤4。

3、记录访问日志,转向步骤1;

4、计算在本次及历史访问失败的条件下,目标服务器故障的概率;

5、如果概率大于阈值,则认为目标服务器故障,转到7;如果概 率小于等于阈值,则转到6;

6、记录日志,转到1;

7、记录日志,将故障通知分析装置,转到1。

图3为图1所示的监控系统的分析装置处理故障的流程示意图。 如图3所示,分析装置处理故障的流程包括以下步骤:

1、分析装置收到检测装置送来的故障报告;

2、分析装置判断5分钟前是否已经通知相关人员服务器运行故障, 如果是,则转到4;如果否,则转到3;

3、分析装置判断1分钟前是否有故障报告,如果是,则转到5; 如果不是,则转到4;

4、将本次故障报告存入数据库,做好系统日志;

5、遍历最近2分钟的故障报告,将报告故障的检测装置取出,组 成故障点集合;

6、判断是否故障点集合中所有故障点检测装置都报告故障,如果 是,则转到7;如果不是,则转到8;

7、调用第一通讯模块,通知相关人员目标服务器故障,结束;

8、是否有同一网络中所有检测装置都报故障,如果是,则转到9; 如果不是,则转到10;

9、调用第一通讯模块,通知相关人员某个网络通讯故障,转到10;

10、是否有零散的检测装置报告故障,如果是,转到11;如果不 是,则结束;

11、调用第一通讯模块,通知相关人员某些检测装置通讯故障, 结束。

图4为本发明的基于贝叶斯方法的互联网应用服务监控方法的流 程示意图。如图4所示,本发明提供的基于贝叶斯方法的互联网应用 服务监控方法包括如下步骤:

步骤A:在组成互联网的每个异构网络中设置用于访问目标服务器 的检测装置,同时设置一个与每个所述检测装置均通过通讯链路互通 数据的分析装置,对每个所述检测装置的信息在所述分析装置中进行 注册;

步骤B:配置每个所述检测装置对所述目标服务器的访问频率;

步骤C:控制每个所述检测装置按照各自配置的访问频率循环访问 所述目标服务器,并采集访问参数,生成访问记录;

步骤D:判断每个所述检测装置的返回结果是否正确,返回结果正 确时,将所述访问记录记入日志,并继续进行下一次访问;返回结果 不正确时,按所述分析装置提供的该检测装置的关键参数利用贝叶斯 方法计算故障概率,判断所述故障概率是否大于阈值,如果故障概率 大于阈值,则该将故障概率传送至所述分析装置;

步骤E:所述分析装置接收到所述返回结果不正确的检测装置传送 来的故障概率后,统计给定时段报告的所有故障的频率和次数,生成 故障分析结果;如果全部检测装置均报告故障,则判定所述目标服务 器发生故障;如果仅同一异构网络中全部检测装置均报告故障,则判 定该异构网络发生故障;如仅有部分检测装置报告故障,则判定通信 链路发生故障。

所述步骤A中,在组成互联网的各异构网络中分别设置三个所述 检测装置。

所述步骤A中,注册在所述分析装置中的每个所述检测装置的信 息均包括检测装置所在的网络类型,以及检测装置的IP地址和CPU ID 等。

所述步骤B中,所述访问频率为每个所述检测装置均为每隔60秒 对所述目标服务器进行一次访问。

所述步骤D中,所述返回结果不正确的检测装置按所述分析装置 提供的该检测装置的关键参数利用贝叶斯方法计算故障概率具体为:

在给定时间段内,对每个所述检测装置,假设事件A为目标服务 器发生故障,事件B为访问失败,其中Bi指连续i次访问失败,Bnext指下一次访问失败,则连续i次访问失败时所述目标服务器的故障概 率为:

其中,P(A)、P(Bi)和P(Bi|A)为所述分析装置 提供的该检测装置的关键参数,

P(Bi)=P(Bi-1)P(Bnext|Bi-1),

其中,

所述步骤D中,所述阈值为0.75。

所述步骤D还包括:如果所述故障概率接近于1,则直接通过Email 或短信通知联系人。

所述步骤C中,所述访问记录包括访问时间、响应时间和返回结 果。

以上实施例仅为本发明的示例性实施例,不用于限制本发明,本 发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的 实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或 等同替换也应视为落在本发明的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号