首页> 中国专利> 面向业务应用的IT集中运维分析系统

面向业务应用的IT集中运维分析系统

摘要

本发明提供一种面向业务应用的IT集中运维分析系统,包括运维分析平台以及与采集服务器,其中:运维分析平台用于向采集服务器发送采集指令,对采集服务器上传的各原始采集数据进行分析获得指标数据,并对该指标数据进行处理,对该指标数据进行处理包括根据该指标数据判断是否生成告警事件;采集服务器用于在接收到运维分析平台发送的采集指令后或者按照预设的采集周期驱动相应的采集插件对被监控的系统/业务进行数据采集,并接收采集插件采集的到的原始采集数据,且将接收到的原始采集数据上传给运维分析平台。本发明实现了对企业的应用系统及业务的运行状态进行监控,能及时告警报警,可以加快故障解决,预见隐患,提前控制风险。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-11-22

    专利权的转移 IPC(主分类):H04L29/08 登记生效日:20191105 变更前: 变更后: 变更前:

    专利申请权、专利权的转移

  • 2019-11-22

    专利权人的姓名或者名称、地址的变更 IPC(主分类):H04L29/08 变更前: 变更后: 变更前: 变更后: 申请日:20120706

    专利权人的姓名或者名称、地址的变更

  • 2015-07-22

    授权

    授权

  • 2012-12-12

    实质审查的生效 IPC(主分类):H04L29/08 申请日:20120706

    实质审查的生效

  • 2012-10-17

    公开

    公开

说明书

技术领域

本发明涉及系统管理领域,特别是涉及一种面向业务应用的IT集中运维分析系统。

背景技术

20世纪70年代至80年代中期是计算机网络发展最快的阶段,通信技术和计算机技术互相促进,结合更加紧密。由于Internet和全球信息化的推动,网络管理的新思想、新技术层出不穷,近几年来,网络得到了迅速的发展,特别是在一些大中型企业、银行金融部门、邮电行业等领域,其应用更为广泛。

目前大多数网络管理系统和平台都是基于SNMP的(Simple NetworkManagement Protocol,简单网络管理协议)协议,可以说SNMP已成为网络管理领域中事实上的工业标准。传统的监控技术是以网络设备和服务器设备监控为基础,具有如下主要功能:

(一)网络拓扑及自动发现。拓扑管理帮助用户自动搜索整个网络内的所有元素,用户可根据自己的需要选择合适的方法进行网络自动拓扑(包括单IP拓扑,网段拓扑,种子节点拓扑,除了直接拓扑网络中的网元,还可以通过EMS间接地拓扑网络)并可自动生成相应的网络拓扑图,可实时地一目了然地了解服务器、网络设备和客户端与网络的连接情况和连通状况,以及与该设备相关的所有监测的运行情况。对启用CDP协议的CISCO设备,可以使用CDP算法提高效率。

(二)IT资源管理。IT资源管理包括网络设备资源管理和服务器资源管理两部分;网络设备资源管理能自动搜索网内的设备,对支持SNMP协议的设备并能识别设备的类型、型号、生产厂家以及设备的硬件配置信息,如CPU,内存,DMA,I/O,DISK,PORT等,对网络设备可以管理到端口级,如端口的类型,速度,端口工作模式等。对不支持标准协议的设备,可以手动的建立资源档案。服务器资源管理能够自动获得运行不同操作系统(WINDOWS、LINUX、UNIX)服务器的属性、软件、硬件、存储器等资源信息。

然而,传统的监控技术只是解决了网络设备和服务器的监控问题,对于企业应用系统及业务的运行状态还不能实现监控,缺乏IT资源和业务的融合,同时,在一个企业已有多套系统的情况下,由于各业务系统和IT资源出现的问题无法在同一个IT监控系统统计展现,因而对出现的信息孤岛问题没有解决办法,多个系统由于没有关联性,产生的问题会极大影响运维的效率和企业业务的稳定。

发明内容

本发明的目的在于针对现有技术的缺点和不足,提供一种面向业务应用的IT集中运维分析系统,实现对企业应用系统及业务的运行状态的监控。

本发明的目的通过如下技术方案实现:

一种面向业务应用的IT集中运维分析系统,包括一套运维分析平台、以及与所述运维分析平台连接的一个以上采集服务器,其中;

所述运维分析平台用于向采集服务器发送采集指令驱动采集服务器执行数据采集任务,对采集服务器上传的各原始采集数据分别按照预设的分析规则和分析参数进行分析获得指标数据,并对该指标数据进行处理,所述对该指标数据进行处理包括根据该指标数据判断是否生成告警事件;

所述采集服务器用于在接收到运维分析平台发送的采集指令后或者按照预设的采集周期驱动相应的采集插件对被监控的系统/业务进行数据采集,并接收采集插件采集的到的原始采集数据,且将接收到的原始采集数据上传给运维分析平台。

依据上述本发明的方案,通过一个或多个采集服务器驱动相应的采集插件对被监控的系统/业务进行数据采集,运维分析平台对原始采集数据按照预设的分析规则和分析参数进行分析获得指标数据,并对该指标数据进行处理,如生成告警事件等,实现了对企业的应用系统及业务的运行状态进行监控,能及时告警报警,可以加快故障解决,预见隐患,提前控制风险。

附图说明

图1为本发明的面向业务应用的IT集中运维分析系统实施例一的结构框图;

图2为本发明的面向业务应用的IT集中运维分析系统实施例二的结构框图;

图3为图2中的采集服务器的结构框图;

图4本发明的面向业务应用的IT集中运维分析系统实施例四的结构框图;

图5本发明的面向业务应用的IT集中运维分析系统实施例五的结构框图;

图6为图5中的监控服务器的结构框图。

具体实施方式

下面结合实施例及附图对本发明进行详细阐述,但本发明的实施方式不限于此。

实施例一

参见图1所示,本发明的实施例一提供了一种面向业务应用的IT集中运维分析系统,包括运维分析平台100、以及与运维分析平台100连接的一个以上采集服务器200,运维分析平台100和采集服务器200之间一般通过无线网络连接,其中:

运维分析平台100用于向采集服务器200发送采集指令驱动采集服务器200执行数据采集任务,对采集服务器200上传的各原始采集数据分别按照预设的分析规则和分析参数进行分析获得指标数据,并对该指标数据进行处理,所述对该指标数据进行处理包括根据该指标数据判断是否生成告警事件,其中,指标数据一般由指标名称和指标数值两部分组成,它体现了事物质的规定性和量的规定性两个方面的特点;

采集服务器200用于在接收到运维分析平台100发送的采集指令后或者按照预设的采集周期驱动相应的采集插件对被监控的系统/业务进行数据采集,并接收采集插件采集的到的原始采集数据,且将接收到的原始采集数据上传给运维分析平台100,其中采集插件一般安装在被监控的系统/业务所在的宿主机上,当被监控的系统/业务所在的宿主机上不存在相应插件时,采集服务器200也可以先将相应的采集插件下载到被监控的系统/业务所在的宿主机上,再驱动相应的采集插件对被监控的系统/业务进行数据采集。

其中,在实际操作过程中,一般是在集中运维中心部署一套运维分析平台100,在每个数据中心分别部署一个采集服务器200,但也不限于这种部署方式,采集服务器200可以负责对一个或者多个的被监控的系统/业务的数据采集,一方面,采集服务器200可以自行按照预设的采集周期执行数据采集任务,这个采集周期对同一个采集服务器200也可以是不同的,如每间隔5分钟执行一次采集A系统的数据,即对应A系统的采集周期为5分钟,每隔10分钟采集一次B系统的数据,即对应B系统的采集周期为10分钟,采集服务器200也可以在接收到运维分析平台100发送的采集指令后执行采集任务,即驱动对应的采集插件对被监控的系统/业务进行数据采集。运维分析平台100对对采集服务器200上传的各原始采集数据分别按照预设的分析规则和分析参数进行分析获得指标数据,这样,根据指标数据,就可以判断这些数据是否超标等,并根据判断结果做出相应处理,如生成告警事件。

依据上述本发明的方案,通过一个或多个采集服务器200驱动相应的采集插件对被监控的系统/业务进行数据采集,运维分析平台100对原始采集数据按照预设的分析规则和分析参数进行分析获得指标数据,并对该指标数据进行处理,如生成告警事件等,实现了对企业的应用系统及业务的运行状态进行监控,能及时告警报警,可以加快故障解决,预见隐患,提前控制风险,同时,一个采集服务器200可以对多个对被监控的系统/业务进行数据采集,或者通过多个采集服务器200分别对各自负责的被监控的系统/业务进行数据采集,这样各业务系统和IT资源出现的问题都可以在运维分析平台100统计展现,防止了出现的信息孤岛问题。

实施例二

其中,如图2所示,运维分析平台100可以包括一个以上的监控服务器101、一个以上的数据汇聚服务器102,图中只给出了各一个的情况,但不限于这种情况,监控服务器101用于向采集服务器200发送采集指令驱动采集服务器执行数据采集任务,并对采集服务器200上传的各原始采集数据分别按照预设的对应指标进行分析获得指标数据,数据汇聚服务器102用于对指标数据进行处理,所述对指标数据进行处理包括根据指标数据判断是否生成告警事件,其中,监控服务器101、数据汇聚服务器102的数量可以根据监控规模而定,在大规模监控环境下,可以配置多个监控服务器101,并且当被监控的系统/业务增加时也可以相应的增加监控服务器200的个数,因而,本发明面向业务应用的IT集中运维分析系统具有极强的扩展性,同时,在大规模监控环境下,也可以部署多个数据汇聚服务器102,每个数据汇聚服务器102负责处理一个或者多个监控服务器101输送的指标数据,以保证整个监控系统的性能。

实施例三

本实施例相对于实施例二,给出了采集服务器200可具体实现其功能的方式,如图3所示,采集服务器200上可以配置有监控代理201和/或远程代理服务器202,其中:

监控代理201安装在被监控的系统/业务所在宿主机上,用于在监听到监控服务器101发送的采集命令后执行数据采集任务,并将采集到的原始采集数据汇聚到采集服务器202,以供采集服务器202上传给监控服务器101,其中监控代理201的主体是一个守护程序和若干插件,守护程序负责监听外部命令请求,如监听来自监控服务器的采集指令,并根据请求命令调用相应插件采集数据,监控代理承201担的功能非常简单、占用资源非常低,在不采集数据时几乎对被监控的系统/业务所在宿主机的性能机会没有影响,在安全性能方面,本发明的面向业务应用的IT集中运维分析系统可以提供如下的任意一种以上的机制确保监控代理201的安全:

(1)所述监控代理采用SSL加密协议通讯方式进行通讯,可确保数据传输安全;

(2)所述监控代理预先配置有一个允许服务对象IP列表(通常是监控服务器101的IP地址),只有来自此IP列表中的采集命令才被接收和执行;

(2)监控代理只执行预先设定的插件程序,这些插件程序在出厂前就可是经过严格测试的;

远程代理服务器202用于在监听到监控服务器的采集命令后登录到被监控的系统/业务所在宿主机上执行采集任务,并在需要登录到监控对象目标机执行采集任务的情况下,能自动创建和管理监控目标宿主机远程登录会话,其中,远程代理服务器202一般包括守护程序、日志文件、插件、外壳程序、外壳程序的配置文件、插件包组成,其中,守护程序负责监听来自监控服务器101的命令请求,如监听来自监控服务器的采集指令,并调用执行相应的插件,守护程序的配置文件保存了守护程序运行所需配置信息,如监听端口号、允许接受命令请求的IP列表、运行守护程序的用户和用户组、允许调用的命令列表等,日志文件记录守护程序或外壳程序运行日志信息,插件用于采集被监控对象监测信息的小程序,外壳程序负责远程登录到监控对象目标机,下载相应插件到监控对象目标机上(在目标机没有相应插件或版本不一致需要升级的情况才下载),并在本地执行完成数据采集;外壳程序的配置文件保存外壳程序完成其功能所必须的配置信息;插件包存放需要下载到监控对象目标机的插件,包括工具包(如CURL等)、采集插件包。

实施例四

参见图4所示,本发明的面向业务应用的IT集中运维分析系统的运维分析平台100还可以包括数据存储服务器103,数据存储服务器103用于存储指标数据,则相应的,数据汇聚服务器102对指标数据进行处理还包括将指标数据存储到数据存储服务器103,数据存储服务器103还用于在接收到查询指令时,根据查询指令获取对应的指标数据,或者数据存储服务器103还用于根据各预设清理周期清理对应的陈旧的指标数据,这个清理周期也可以根据监控数据的类型、来源等进行不同的设置,数据存储服务器103的可选用一些商业数据库,如Mysql(Mysql是一个中、小型关系型数据库管理系统,由瑞典MySQL AB公司开发)或ORCACLE(ORCACLE是Oracle公司开发的数据库)等。

实施例五

此外,为了实现对监控服务器101、数据汇聚服务器102、存储服务器103的工作运行、处理硬件、操作系统及应用软件等不同层级的软件管理及升级和系统的资源管理、性能维护和监控配置,本发明的面向业务应用的IT集中运维分析系统,在上述实施例的基础上,如图5所示,其运维分析平台100还可以包括管理服务器104,管理服务器104用于身份认证与权限管理,其中,身份认证功能的实现一般可以通过现有技术的多种方式实现,在此不予赘述,权限管理是指根据系统设置的安全规则或者安全策略,用户可以访问而且只能访问被授权的资源,这一功能的实现为现有技术,在此不加以赘述;管理服务器104还可以用于向监控服务器101下发监控任务,则相应的,监控服务器101还用于根据管理服务器104下发的监控任务生成数据采集任务,并向采集服务器200发送采集指令驱动采集服务器执行数据采集任务;管理服务器104还可以用于展现监控结果,如用户可在自己的访问权限内,查询数据存储服务器103中的指标数据,并管理服务器104展现在个人主机上。

实施例六

在具体实施时,参见图6所示,监控服务器101一般可以包括配置代理101a、监控调度引擎101b和CCE分析引擎101c,其中:

配置代理101a用于接收所述管理服务器104配置的管理命令,并更新监控调度引擎101b所需配置信息;

监控调度引擎101b用于根据配置信息来调度采集服务器200执行采集任务,并将接收到的原始采集数据发送到CCE分析引擎101c;

CCE分析引擎101c用于根据原始采集数据,选择对应的分析规则和分析参数进行分析,并输出指标数据。

实施例七

为了实现对客户体验的监控,本发明的面向业务应用的IT集中运维分析系统,还包括与采集服务器200连接的一个以上的探针,探针用于监测被监控的系统/业务的可用性和响应时间,并将监测到的系统/业务的可用性和响应时间上传到数据采集服务器200,其中,探针主要包括主动检测模式和/或被动监测模式,主动探测模式为通过预先编制的脚本来模拟用户实际使用业务场景得出业务可用性和响应时间;所述被动探测模式是通过对网络层数据包的抓取和分析获取某项业务的可用性和响应时间,如检测电力营销系统在某个营业厅的使用情况,可以通过部署在该营业厅的探针抓取到某项业务的数据包,上传到采集服务器200,经采集服务器200的监控调度引擎101b上报给CCE分析引擎101c,CCE分析引擎101c进行CEE报文分析,并将监控数据以指标数据输出。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号