首页> 中国专利> 基于变更和告警事件流处理故障的管道理论方法

基于变更和告警事件流处理故障的管道理论方法

摘要

本发明涉及一种基于变更和告警事件流处理故障的管道理论方法,具体包括:获取变更事件流、告警事件流和故障事件流;基于所述变更事件流、告警事件流和故障事件流内的时间信息,关联所述变更事件流、告警事件流和故障事件流的变更事件、告警事件和故障事件;告警事件产生时,触发故障事件升级,进入故障事件发现阶段,在故障事件发现阶段通过人工或程序发出故障通告给故障处理人员,进入故障处理阶段;故障处理阶段通过人工或程序匹配历史变更事件定位到导致故障的第一变更事件;实施第二变更事件以结束第一变更事件的影响;随着第二变更事件的实施,故障恢复,并消除告警事件,从而使服务恢复稳定运行。

著录项

  • 公开/公告号CN113139658A

    专利类型发明专利

  • 公开/公告日2021-07-20

    原文格式PDF

  • 申请/专利权人 上海中通吉网络技术有限公司;

    申请/专利号CN202110439379.6

  • 发明设计人 张秀凯;

    申请日2021-04-23

  • 分类号G06N5/02(20060101);

  • 代理机构11471 北京细软智谷知识产权代理有限责任公司;

  • 代理人葛钟

  • 地址 201799 上海市青浦区华志路1685号5幢

  • 入库时间 2023-06-19 11:54:11

说明书

技术领域

本发明涉及告警相关技术领域,具体涉及一种基于变更和告警事件流处理故障的管道理论方法。

背景技术

目前行业内关于故障处理的方法并没形成一套固有、通用的理论方法,帮助故障处理实施及改进,而是根据以往故障处理的经验,对发生的故障进行处理,没有理论方法的指导,往往故障处理自动化程度低、针对新型故障无法快速响应、特大故障处理缓慢、故障处理的覆盖维度不够全面等问题。

发明内容

有鉴于此,提供一种基于变更和告警事件流处理故障的管道理论方法,以解决相关技术中的问题。

本发明采用如下技术方案:

本发明实施例提供了一种基于变更和告警事件流处理故障的管道理论方法包括:

获取变更事件流、告警事件流和故障事件流;

基于所述变更事件流、告警事件流和故障事件流内的时间信息,关联所述变更事件流、告警事件流和故障事件流的变更事件、告警事件和故障事件;

告警事件产生时,触发故障事件升级,进入故障事件发现阶段,在故障事件发现阶段通过人工或程序发出故障通告给故障处理人员,进入故障处理阶段;

故障处理阶段通过人工或程序匹配历史变更事件定位到导致故障的第一变更事件;

实施第二变更事件以结束第一变更事件的影响;

随着第二变更事件的实施,故障恢复,并消除告警事件,从而使服务恢复稳定运行。

可选的,还包括:

汇总每一次告警事件产生时相关的第一变更事件、告警事件、故障事件、第二变更事件,为后续的故障事件的处理提供便利。

可选的,所述通过人工或程序匹配历史变更事件定位到导致故障的第一变更事件,包括:

基于时间信息,展示告警事件产生前的变更事件,以辅助定位到导致故障的第一变更事件。

可选的,所述变更事件流,包含变更事件和各个变更事件对应的时间;所述告警事件流,包含告警事件和各个告警事件对应的时间;所述故障事件流,包含故障事件和各个故障事件对应的时间。

可选的,还包括:

对于故障进行分类汇总;

告警事件产生时,基于分类汇总的结果,自动实施对应的第二变更事件以结束第一变更事件的影响。

本发明采用以上技术方案,基于故障的本质,即:资源所产生的事件,其中资源包括但不限于主机、DB、中间件、网络、应用等,这些资源都是业务服务的基础,这些资源在运行过程中,产生各种事件,包括但不限于变更、告警、故障等,其中变更和告警事件与故障事件产生密切相关,如图1所示,变更可能是告警产生的原因,也可能是告警处理的实施;告警可能作为故障发现的方式,同样也可以作为故障恢复的验证手段;故障可能是变更的结果,即变更导致故障,故障的处理也可以通过实施变更恢复,因此变更、告警和故障是密不可分的。具体的,第一变更事件导致了告警事件和故障事件,故障事件处理定位可以追溯到第一变更事件的实施导致故障事件,为了消除故障事件,实施了第二变更事件,故障事件恢复同时告警事件也消除,这三条事件流管道各自在时间序列上是独立的,且通过人工/自动化手段,将三条管道中的事件关联起来:告警事件产生时,触发故障升级,进入故障发现阶段,在故障发现阶段通过人工或程序发出故障通告给故障处理人员,进入故障处理阶段,故障处理阶段通过人工或程序匹配历史变更定位到第一变更事件导致故障事件,本申请实施第二变更事件以结束第一变更事件的影响,随着第二变更事件的实施,故障恢复,并消除告警事件,从而使服务恢复稳定运行。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种智基于变更和告警事件流处理故障的管道理论方法的流程图;

图2是本发明实施例提供的一种基于变更和告警事件流处理故障的管道理论逻辑流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。

首先对本发明实施例的应用场景进行说明,目前行业内关于故障处理的方法并没形成一套固有、通用的理论方法,帮助故障处理实施及改进,而是根据以往故障处理的经验,对发生的故障进行处理,没有理论方法的指导,往往故障处理自动化程度低、针对新型故障无法快速响应、特大故障处理缓慢、故障处理的覆盖维度不够全面等,本发明基于故障的本质:事件的一种,关联变更和告警(同样为事件),提出管道方式对故障实施处理,是一种行之有效的、成体系的、快速的、全面的故障处理理论。当下公司大量的应用和丰富的业务场景,出现的故障类型也多种多样,根据以往的故障处理经验,难免会出现无法覆盖的情况,需要从新的角度去思考并进行故障处理。现有的技术方案,是根据以往故障的处理经验,针对不同故障类型,总结得到的具体的处理方法,局限性较高,缺乏普适性,并没有形成通用的理论方案。本申请针对这一问题提出了对应的解决方案。

实施例

图1为本发明实施例提供的一种基于变更和告警事件流处理故障的管道理论方法的流程图。参考图1,该方法具体可以包括如下步骤:

S101、获取变更事件流、告警事件流和故障事件流;

具体的,所述变更事件流,包含变更事件和各个变更事件对应的时间;所述告警事件流,包含告警事件和各个告警事件对应的时间;所述故障事件流,包含故障事件和各个故障事件对应的时间。

S102、基于所述变更事件流、告警事件流和故障事件流内的时间信息,关联所述变更事件流、告警事件流和故障事件流的变更事件、告警事件和故障事件;

S103、告警事件产生时,触发故障事件升级,进入故障事件发现阶段,在故障事件发现阶段通过人工或程序发出故障通告给故障处理人员,进入故障处理阶段;

S104、故障处理阶段通过人工或程序匹配历史变更事件定位到导致故障的第一变更事件;

具体的,所述通过人工或程序匹配历史变更事件定位到导致故障的第一变更事件,包括:

基于时间信息,展示告警事件产生前的变更事件,以辅助定位到导致故障的第一变更事件。

S105、实施第二变更事件以结束第一变更事件的影响;

S106、随着第二变更事件的实施,故障恢复,并消除告警事件,从而使服务恢复稳定运行。

进一步的,本申请提供的基于变更和告警事件流处理故障的管道理论方法还包括:

汇总每一次告警事件产生时相关的第一变更事件、告警事件、故障事件、第二变更事件,为后续的故障事件的处理提供便利

进一步的,对于故障进行分类汇总;告警事件产生时,基于分类汇总的结果,自动实施对应的第二变更事件以结束第一变更事件的影响。

图2是本发明实施例提供的一种基于变更和告警事件流处理故障的管道理论逻辑流程图。参照图2,本申请提供的具体如下:

方案还包括:

本发明提供的基于变更和告警事件流处理故障的管道理论方法,是基于故障的本质提出的。资源所产生的事件,其中资源包括但不限于主机、DB、中间件、网络、应用等,这些资源都是业务服务的基础,这些资源在运行过程中,产生各种事件,包括但不限于变更、告警、故障等,其中变更和告警事件与故障事件产生密切相关。具体的,变更可能是告警产生的原因,也可能是告警处理的实施;告警可能作为故障发现的方式,同样也可以作为故障恢复的验证手段;故障可能是变更的结果,即变更导致故障,故障的处理也可以通过实施变更恢复,因此变更、告警和故障是密不可分的。

本发明涉及的逻辑流程如图2所示,资源运行过程中,会产生不同的事件:变更、告警和故障,这些事件是有时间顺序的,对应图中不同的管道,形成各自的事件流,当在某个时间点发生变更1时,若变更异常,会在后续时间点产生告警,如图所示告警1,随着时间推移,故障产生,进入故障生命周期:发现、处理、恢复,当故障通过变更2实施恢复时,告警1也同步消除恢复。

以上变更、告警和故障三条事件流管道,其中的事件存在密切的关系,变更1导致了告警1和故障,故障处理定位可以追溯到变更1的实施导致故障,为了消除故障,实施了变更2,故障恢复同时告警1也消除,这三条事件流管道各自在时间序列上是独立的,且通过人工/自动化手段,即图2中的ACTION,将三条管道中的事件关联起来:告警1产生时,触发故障升级,进入故障发现阶段,在故障发现阶段通过人工或程序发出故障通告给故障处理人员,故障处理阶段,故障处理阶段通过人工或程序匹配历史变更定位到变更1导致故障,申请实施变更2以结束变更1影响,随着变更2实施,故障恢复,并消除告警 1,从而使服务恢复稳定运行。进一步的,对上述这种事件进行汇总,多次汇总后,对于一些简单的没有太大危害性的故障,可以直接自动执行变更2,已进行故障的处理。

可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA) 等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号