法律状态公告日
法律状态信息
法律状态
2015-08-12
授权
授权
2013-03-20
实质审查的生效 IPC(主分类):H04L12/26 申请日:20110809
实质审查的生效
2013-02-13
公开
公开
技术领域
本发明涉及互联网应用服务监控领域,尤其涉及一种基于贝叶斯 方法的互联网应用服务监控系统及方法。
背景技术
互联网是由多个异构网络构成的,访问者也分布在异构网络中。 对用户分布广泛的互联网应用,通讯链路复杂多变,链路故障可能出 现在传输中的任何一个环节,其中,涉及互联网传输的链路故障较难 从内部第一时间响应。
由于互联网本质上不是一个高可靠、高稳定的网络,数据传输容 易受到各种因素的干扰。互联网中,对持续不断的循环访问,访问失 败是经常发生的。访问失败并不代表出现故障或拥塞,可能仅仅是受 一些临时性因素的干扰。因此,对每次访问失败,都应当评估故障发 生的概率,并充分考虑互联网的不稳定性和不可靠性,以及异构网络 的独特性以此提高故障预警的准确率。
发明内容
为了解决现有技术的上述问题,本发明的目的是提供一种能够监 控互联网用户访问目标服务器的真实情况,获取对不同网络中的通信 链路性能参数,以及检测目标服务器或通信链路故障的基于贝叶斯方 法的互联网应用服务监控系统及方法。
为了实现上述目的,本发明提供了一种基于贝叶斯方法的互联网 应用服务监控系统,其包括:
检测装置,设置在组成互联网的每个异构网络中,用于访问目标 服务器;和
分析装置,其与每个所述检测装置均通过通讯链路互通数据,
所述检测装置包括检测策略配置模块、访问检测模块、日志模块、 第一判断模块、计算模块和数据传输模块,
所述分析装置包括数据接收模块、数据分析模块、第二判断模块、 第三判断模块、注册模块、第一通讯模块和数据库,其中,
所述注册模块形成为对每个所述检测装置的信息进行注册;
所述检测策略配置模块形成为配置每个所述检测装置对所述目标 服务器的访问频率;
所述访问检测模块形成为控制每个所述检测装置按照各自配置的 访问频率循环访问所述目标服务器,并采集访问参数,生成访问记录;
所述第一判断模块形成为判断每个所述检测装置的返回结果是否 正确,返回结果正确时,所述日志模块将所述访问记录记入日志,并 继续进行下一次访问;返回结果不正确时,所述计算模块按所述分析 装置提供的该检测装置的关键参数来计算故障概率;
所述第二判断模块形成为判断所述故障概率是否大于阈值,如果 故障概率大于阈值,则所述数据传输模块将故障概率传送至所述分析 装置;
所述日志模块形成为将访问记录记入日志或从日志中读取访问记 录;
所述数据分析模块形成为计算所述返回结果不正确的检测装置的 关键参数,以及分析所述返回结果不正确的检测装置回传的故障概率, 判断是否为故障;
所述计算模块形成为按所述分析装置提供的检测装置的关键参数 利用贝叶斯方法计算故障概率;
所述数据传输模块形成为向所述分析装置传送一定时间段内的访 问记录,以及将发生访问故障时的故障概率传送至所述分析装置;
所述数据接收模块形成为接收所述数据传输模块传送来的一定时 间段内的访问记录,以及发生访问故障时所述检测装置传送来的故障 概率,并存储于所述数据库中;
所述第三判断模块形成为统计给定时段报告的所有故障的频率和 次数,生成故障分析结果;如果全部检测装置均报告故障,则判定所 述目标服务器发生故障;如果仅同一异构网络中全部检测装置均报告 故障,则判定该异构网络发生故障;如仅有部分检测装置报告故障, 则判定通信链路发生故障;
所述第一通讯模块形成为将所述第三判断模块生成的故障分析结 果发送出去;
所述数据库形成为存储所述数据接收模块接收到的所述访问记录 和发生访问故障时的故障概率。
作为优选,所述检测策略配置模块所配置的所述访问频率为每隔 60秒进行一次访问。
作为优选,所述数据分析模块计算所述返回结果不正确的检测装 置的关键参数的方法为:
在给定时间段内,对每个所述检测装置,假设事件A为目标服务 器发生故障,事件B为访问失败,其中Bi指连续i次访问失败,Bnext指下一次访问失败,则
P(Bi)=P(Bi-1)P(Bnext|Bi-1),
其中,
所述计算模块利用贝叶斯方法计算的连续i次访问失败时所述目 标服务器的故障概率P(A|Bi)为:
作为优选,所述检测装置还包括通讯模块,其形成为当所述故障 概率接近于1时,通过Email或短信发出通知。
本发明同时提供了一种基于贝叶斯方法的互联网应用服务监控方 法,包含以下步骤:
步骤A:在组成互联网的每个异构网络中设置用于访问目标服务器 的检测装置,同时设置一个与每个所述检测装置均通过通讯链路互通 数据的分析装置,对每个所述检测装置的信息在所述分析装置中进行 注册;
步骤B:配置每个所述检测装置对所述目标服务器的访问频率;
步骤C:控制每个所述检测装置按照各自配置的访问频率循环访问 所述目标服务器,并采集访问参数,生成访问记录;
步骤D:判断每个所述检测装置的返回结果是否正确,返回结果正 确时,将所述访问记录记入日志,并继续进行下一次访问;返回结果 不正确时,按所述分析装置提供的该检测装置的关键参数利用贝叶斯 方法计算故障概率,判断所述故障概率是否大于阈值,如果故障概率 大于阈值,则将故障概率传送至所述分析装置;
步骤E:所述分析装置接收到所述返回结果不正确的检测装置传送 来的故障概率后,统计给定时段报告的所有故障的频率和次数,生成 故障分析结果;如果全部检测装置均报告故障,则判定所述目标服务 器发生故障;如果仅同一异构网络中全部检测装置均报告故障,则判 定该异构网络发生故障;如仅有部分检测装置报告故障,则判定通信 链路发生故障。
作为优选,所述步骤A中,在每个异构网络中设置三个所述检测 装置。
作为优选,所述步骤A中,注册的所述检测装置的信息包括检测 装置所在的网络类型,以及检测装置的IP地址和CPU ID。
作为优选,所述步骤D中,返回结果不正确时,按所述分析装置 提供的该检测装置的关键参数利用贝叶斯方法计算故障概率具体为:
在给定时间段内,对每个所述检测装置,假设事件A为目标服务 器发生故障,事件B为访问失败,其中Bi指连续i次访问失败,Bnext 指下一次访问失败,则连续i次访问失败时所述目标服务器的故障概 率为:
其中,P(A)、P(Bi)和P(Bi|A)为所述分析装置 提供的该检测装置的关键参数,
P(Bi)=P(Bi-1)P(Bnext|Bi-1),
其中,
作为优选,所述步骤D中,所述阈值为0.75。
作为优选,所述步骤C中,所述访问记录包括访问时间、响应时 间和返回结果。
与现有技术相比,本发明具有以下有益效果:
(1)检测装置部署在真实的互联网中,模拟用户访问目标服务器, 测试各种不同的网络提供商的通讯质量,采集的数据真实可靠,具备 很好代表性,并且互联网访问的性能评估准确,目标服务器故障定位 精准快速;
(2)充分考虑到互联网的不稳定性和不可靠性,以及异构网络的 独特性,使用贝叶斯方法预测访问失败时发生故障的概率,有效地降 低了误报率,排除随机因素对故障判断的干扰,使得故障报告较为准 确;
(3)检测装置与分析装置相互独立运作,一方故障、升级、更改 不会影响整个系统的运转,有效地保证了系统运转的稳定性,系统的 稳定性、可维护性、可靠性大为增强。
附图说明
图1为本发明的基于贝叶斯方法的互联网应用服务监控系统的结 构示意图。
图2为图1所示的监控系统的检测装置对目标服务器的一次访问 流程示意图。
图3为图1所示的监控系统的分析装置处理故障的流程示意图。
图4为本发明的基于贝叶斯方法的互联网应用服务监控方法的流 程示意图。
具体实施方式
下面结合附图对本发明的实施例进行详细说明。
图1为本发明的基于贝叶斯方法的互联网应用服务监控系统的结 构示意图。如图1所示,本发明提供的基于贝叶斯方法的互联网应用 服务监控系统包括检测装置和分析装置,所述检测装置分布在组成互 联网的各个异构网络中,用于对目标服务器进行嗅探性访问,以测试 各种不同网络的通讯质量,其中网络1、网络2和网络3中各设有三个 检测装置,每个检测装置均通过通讯链路与分析装置互通数据。
每个所述检测装置均包括检测策略配置模块、访问检测模块、日 志模块、第一判断模块、计算模块和数据传输模块,所述分析装置包 括数据接收模块、数据分析模块、第二判断模块、第三判断模块、注 册模块和数据库,其中,
所述注册模块,用于对每个检测装置的信息进行注册,每个检测 装置都要在分析装置进行注册才可运行,注册在服务器中的检测装置 的信息包括检测装置所在的网络类型,以及检测装置的IP地址和CPU ID等。
所述检测策略配置模块,包括一个内含访问间隔参数的配置文件, 用于配置每个所述检测装置对所述目标服务器的访问频率,如访问频 率为每个所述检测装置均为每隔60秒对所述目标服务器进行一次访 问;
所述访问检测模块,用于控制每个所述检测装置按照各自配置的 访问频率循环访问所述目标服务器,并采集每次访问的参数,生成访 问记录,访问记录包括访问时间、响应时间和返回结果等内容;
所述第一判断模块,用于检测每个所述检测装置的返回结果是否 正确,返回结果正确的检测装置将所述访问记录记入日志,并继续进 行下一次访问;返回结果不正确的检测装置按所述分析装置提供的该 检测装置的关键参数计算故障概率;
所述第二判断模块,用于判断所述故障概率是否大于阈值,在本 实施中阈值取0.75,如果故障概率大于阈值,则该检测装置将故障概 率传送至所述分析装置,并将所述访问记录记入日志,然后继续进行 下一次访问,如果故障概率不大于阈值,则该检测装置将所述访问记 录记入日志,并继续进行下一次访问;
所述日志模块,用于将访问记录记入日志或从日志中读取访问记 录;提供了访问记录与日志文件的双向映射功能,访问记录产生后, 记录于日志中,当需要调取历史访问记录时,则从日志中读取;
所述数据分析模块,用于计算所述返回结果不正确的检测装置的 关键参数,以及分析所述返回结果不正确的检测装置回传的故障概率, 判断是否为故障;使用每个检测装置的历史访问记录,单独计算其关 键数据指标,具体关键数据指标及计算方法为:
在给定时间段内,对每个所述检测装置,假设事件A为目标服务 器发生故障,事件B为访问失败,其中Bi指连续i次访问失败,Bnext指下一次访问失败,则
P(Bi)=P(Bi-1)P(Bnext|Bi-1),
其中,
所述计算模块,用于按所述分析装置提供的检测装置的关键参数 利用贝叶斯方法计算故障概率,连续i次访问失败时所述目标服务器 的故障概率为:
所述数据传输模块,用于向所述分析装置传送一定时间段内的访 问记录,以及将发生访问故障时的故障概率传送至所述分析装置,一 条访问记录为一次访问的相关参数;
所述数据接收模块,用于接收所述数据传输模块传送来的一定时 间段内的访问记录,以及发生访问故障时所述检测装置传送来的故障 概率,并存储于所述数据库中;一条访问记录包括的内容有检测装置 序号、所属网络、访问时间、响应时间、返回结果、目标服务器状态 等参数;
所述第三判断模块,用于统计给定时段报告的所有故障的频率和 次数,生成故障分析结果;如果全部检测装置均报告故障,则判定所 述目标服务器发生故障;如果仅同一异构网络中全部检测装置均报告 故障,则判定该异构网络发生故障;如仅有部分检测装置报告故障, 则判定通信链路发生故障;
所述第一通讯模块,用于将所述第三判断模块生成的故障分析结 果通知联系人;
所述数据库,用于存储所述数据接收模块接收到的所述访问记录 和发生访问故障时的故障概率。
此外,每个所述检测装置还包括自检模块,用于检测每个所述检 测装置自身运行情况,检测装置为一台网络拓扑结构中的终端,一般 为安装了检测系统的PC,如为PC,则运行指标有CPU占用、内存使 用、网络使用和硬盘使用等;以及第二通讯模块,用于所述故障概率 接近于1时,直接通过Email或短信通知联系人
所述分析装置还包括数据可视化模块,用于显示故障分析结果, 如故障概率波动图和响应时间波动图。
图2为图1所示的监控系统的检测装置对目标服务器的一次访问 流程示意图。如图2所示,检测装置对目标服务器的一次访问流程包 括如下步骤:
1、检测装置访问目标服务器;
2、如果返回值为目标服务器运转正常,则转向步骤3;如果返回 值为目标服务器不正常,或无返回,则转向步骤4。
3、记录访问日志,转向步骤1;
4、计算在本次及历史访问失败的条件下,目标服务器故障的概率;
5、如果概率大于阈值,则认为目标服务器故障,转到7;如果概 率小于等于阈值,则转到6;
6、记录日志,转到1;
7、记录日志,将故障通知分析装置,转到1。
图3为图1所示的监控系统的分析装置处理故障的流程示意图。 如图3所示,分析装置处理故障的流程包括以下步骤:
1、分析装置收到检测装置送来的故障报告;
2、分析装置判断5分钟前是否已经通知相关人员服务器运行故障, 如果是,则转到4;如果否,则转到3;
3、分析装置判断1分钟前是否有故障报告,如果是,则转到5; 如果不是,则转到4;
4、将本次故障报告存入数据库,做好系统日志;
5、遍历最近2分钟的故障报告,将报告故障的检测装置取出,组 成故障点集合;
6、判断是否故障点集合中所有故障点检测装置都报告故障,如果 是,则转到7;如果不是,则转到8;
7、调用第一通讯模块,通知相关人员目标服务器故障,结束;
8、是否有同一网络中所有检测装置都报故障,如果是,则转到9; 如果不是,则转到10;
9、调用第一通讯模块,通知相关人员某个网络通讯故障,转到10;
10、是否有零散的检测装置报告故障,如果是,转到11;如果不 是,则结束;
11、调用第一通讯模块,通知相关人员某些检测装置通讯故障, 结束。
图4为本发明的基于贝叶斯方法的互联网应用服务监控方法的流 程示意图。如图4所示,本发明提供的基于贝叶斯方法的互联网应用 服务监控方法包括如下步骤:
步骤A:在组成互联网的每个异构网络中设置用于访问目标服务器 的检测装置,同时设置一个与每个所述检测装置均通过通讯链路互通 数据的分析装置,对每个所述检测装置的信息在所述分析装置中进行 注册;
步骤B:配置每个所述检测装置对所述目标服务器的访问频率;
步骤C:控制每个所述检测装置按照各自配置的访问频率循环访问 所述目标服务器,并采集访问参数,生成访问记录;
步骤D:判断每个所述检测装置的返回结果是否正确,返回结果正 确时,将所述访问记录记入日志,并继续进行下一次访问;返回结果 不正确时,按所述分析装置提供的该检测装置的关键参数利用贝叶斯 方法计算故障概率,判断所述故障概率是否大于阈值,如果故障概率 大于阈值,则该将故障概率传送至所述分析装置;
步骤E:所述分析装置接收到所述返回结果不正确的检测装置传送 来的故障概率后,统计给定时段报告的所有故障的频率和次数,生成 故障分析结果;如果全部检测装置均报告故障,则判定所述目标服务 器发生故障;如果仅同一异构网络中全部检测装置均报告故障,则判 定该异构网络发生故障;如仅有部分检测装置报告故障,则判定通信 链路发生故障。
所述步骤A中,在组成互联网的各异构网络中分别设置三个所述 检测装置。
所述步骤A中,注册在所述分析装置中的每个所述检测装置的信 息均包括检测装置所在的网络类型,以及检测装置的IP地址和CPU ID 等。
所述步骤B中,所述访问频率为每个所述检测装置均为每隔60秒 对所述目标服务器进行一次访问。
所述步骤D中,所述返回结果不正确的检测装置按所述分析装置 提供的该检测装置的关键参数利用贝叶斯方法计算故障概率具体为:
在给定时间段内,对每个所述检测装置,假设事件A为目标服务 器发生故障,事件B为访问失败,其中Bi指连续i次访问失败,Bnext指下一次访问失败,则连续i次访问失败时所述目标服务器的故障概 率为:
其中,P(A)、P(Bi)和P(Bi|A)为所述分析装置 提供的该检测装置的关键参数,
P(Bi)=P(Bi-1)P(Bnext|Bi-1),
其中,
所述步骤D中,所述阈值为0.75。
所述步骤D还包括:如果所述故障概率接近于1,则直接通过Email 或短信通知联系人。
所述步骤C中,所述访问记录包括访问时间、响应时间和返回结 果。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本 发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的 实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或 等同替换也应视为落在本发明的保护范围内。
机译: 基于服务质量的无线互联网应用服务系统及其方法
机译: 基于互联网的应用服务提供系统和在用户终端上分配专用IP地址的方法
机译: 基于服务质量的无线互联网应用服务系统及其方法