首页> 中国专利> 日志文件聚类方法、装置、电子设备和可读存储介质

日志文件聚类方法、装置、电子设备和可读存储介质

摘要

本申请提供了一种日志文件聚类方法、装置、电子设备和可读存储介质,其中,该方法包括:对待聚类日志集进行计算,以得到所述待聚类日志中的每一条日志对应的日志向量,得到向量集;对所述待聚类日志集进行解析,以确定出勿连约束集合;基于所述勿连约束集合,对所述向量集进行半监督聚类,以得到所述向量集的分类结果,能够提高日志的聚类准确性。

著录项

说明书

技术领域

本申请涉及日志数据处理领域,具体而言,涉及一种日志文件聚类方法、装置、电子设备和可读存储介质。

背景技术

目前关于日志的聚类方式一般是采用无监督的日志解析方法,通过提取日志中的关键词(Log Keywords Extraction)和日志签名(LogSignature)等信息为日志典型代表,然后,采用聚类技术将日志进行分类,以组成不同的日志簇。但是由于未对日志进行监督,可能会导致日志的分类存在遗漏。

发明内容

本申请的目的在于提供一种日志文件聚类方法、装置、电子设备和可读存储介质,能够提高日志的聚类效率和聚类准确性。

第一方面,本发明提供一种日志文件聚类方法,包括:

对待聚类日志集进行计算,以得到所述待聚类日志中的每一条日志对应的日志向量,得到向量集;

对所述待聚类日志集进行解析,以确定出勿连约束集合;

基于所述勿连约束集合,对所述向量集进行半监督聚类,以得到所述向量集的分类结果。

在可选的实施方式中,所述方法还包括:

将所述分类结果中的目标类中的日志簇分成多段日志集,所述目标类为所述分类结果中的任意一类;

从所述多段日志集中筛选出目标日志集,所述目标日志集为所述目标类的日志样本集。

在可选的实施方式中,所述从所述多段日志集中筛选出目标日志集,包括:

计算所述多段日志集中的每段日志集的信息熵;

根据每段日志集的所述信息熵确定出目标日志集。

在上述实施方式中,还可以多分类后的日志进行筛选,从而可以形成样本更少的日志分类,以选出更能够代表对应分类的日志。以为人工观察日志提供样本,且能够减少人工所需观察的日志样本的数量。

在可选的实施方式中,所述基于所述勿连约束集合,对所述向量集进行半监督聚类,以得到所述向量集的分类结果,包括:

从所述向量集中随机抽取第一数量的初始中心向量;

计算目标向量与各个所述初始中心向量的距离,所述目标向量为所述向量集中的任意一个向量;

根据所述距离与所述勿连约束集合确定出所述目标向量所在的分类,以得到所述向量集的分类结果,所述分类结果包含第一数量项分类。

在可选的实施方式中,所述基于所述勿连约束集合,对所述向量集进行半监督聚类,以得到所述向量集的分类结果,包括:

基于所述勿连约束集合,对所述向量集进行半监督聚类,以得到所述向量集的多项初始分类结果,每一项初始分类结果对应的分类项数不同;

使用聚类评价算法计算每一项初始分类结果对应的聚类指数;

根据所述聚类指数,从所述多项初始分类结果中确定出分类结果。

在可选的实施方式中,所述使用聚类评价算法计算每一项初始分类结果对应的聚类指数,包括:

使用DBI聚类评价算法计算每一项初始分类结果对应的聚类指数。

在上述实施方式中,可以对待聚类日志进行多重聚类,得到多项初始分类结果,再从多项初始分类结果中选出聚类效果更好的分类结果,可以使分类结果更加准确,更能够表征待聚类日志集的日志分布。

在可选的实施方式中,所述对待聚类日志集进行计算,以得到所述待聚类日志中的每一条日志对应的日志向量,包括:

计算目标日志的各个词对应的词向量,所述目标日志为待聚类日志中的任意一条日志;

根据所述各个词对应的词向量计算所述目标日志的日志向量。

在上述实施方式中,针对每一条日志,可以先计算日志中的一个词的词向量,然后基于词向量计算日志向量,可以不忽略掉日志中的单个词的内容,使确定出的日志向量能够更好地、更准确地表达该日志。

第二方面,本发明提供一种日志文件聚类装置,包括:

计算模块,用于对待聚类日志集进行计算,以得到所述待聚类日志中的每一条日志对应的日志向量,得到向量集;

确定模块,用于对所述待聚类日志集进行解析,以确定出勿连约束集合;

聚类模块,用于基于所述勿连约束集合,对所述向量集进行半监督聚类,以得到所述向量集的分类结果。

第三方面,本发明提供一种电子设备,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述机器可读指令被所述处理器执行时执行如前述实施方式任一所述的方法的步骤。

第四方面,本发明提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如前述实施方式任一所述的方法的步骤。

本申请实施例的有益效果是:采用半监督的聚类方式对日志进行聚类,由于将勿连约束集合作为分类基础,相对于现有的无监督聚类,本申请实施例提供的半监督聚类方式可以使确定出的分类结果更加的准确,且不需要人工进行日志标注,也能够提高日志聚类分析的效率。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的电子设备的方框示意图。

图2为本申请实施例提供的日志文件聚类方法的流程图。

图3为本申请实施例提供的日志文件聚类方法的步骤203的详细流程图。

图4为本申请实施例提供的日志文件聚类方法的步骤203的另一流程图。

图5为本申请实施例提供的日志文件聚类方法的另一流程图。

图6为本申请实施例提供的日志文件聚类方法的步骤205的详细流程图。

图7为本申请实施例提供的日志文件聚类装置的功能模块示意图。

具体实施方式

下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行描述。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

由于系统日志通常是无结构的文本数据,在使用数据挖掘算法对系统日志建立模型训练之前,需要使用日志解析算法将原始的日志数据结构化。一般是通过解析,从日志消息部分中提取常量部分和变量部分,并将每一条日志转化为一个特定的事件或进行持久化入库。

目前的日志解析的方式一般包括正则表达式匹配方式、基于源代码的方式,或者基于规则式的方式,这些方法对专家经验知识依赖性强,且不容易解析出非逻辑错误的日志,当新的日志格式出现时,解析规则容易变得不适用。

因此,针对上述日志解析方式存在的不足,可以通过无监督的方式对日志进行聚类分析,但是无监督的聚类效果有所欠缺。

另外,也可以采用有监督的聚类方式对日志进行聚类分析,但是上述方式一方面需要人工标注,耗费人力,另一方面标注方法通常是针对报错的情况分类的,比如解析key-Value错误,key-value不符合格式等,人工分类容易遗漏错误。

基于上述研究,本申请实施例提供一种日志文件聚类方法,采用勿连约束集合进行半监督的聚类处理,既能够解决无监督的聚类效果有所欠缺的问题,还不需要人工标注。

实施例一

为便于对本实施例进行理解,首先对执行本申请实施例所公开的日志文件聚类方法的电子设备进行详细介绍。

如图1所示,是电子设备的方框示意图。电子设备100可以包括存储器111、处理器113。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对电子设备100的结构造成限定。例如,电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。

上述的存储器111、处理器113各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。上述的处理器113用于执行存储器中存储的可执行模块。

其中,存储器111可以是,但不限于,随机存取存储器(Random Access Memory,简称RAM),只读存储器(Read Only Memory,简称ROM),可编程只读存储器(ProgrammableRead-Only Memory,简称PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,简称EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,简称EEPROM)等。其中,存储器111用于存储程序,所述处理器113在接收到执行指令后,执行所述程序,本申请实施例任一实施例揭示的过程定义的电子设备100所执行的方法可以应用于处理器113中,或者由处理器113实现。

上述的处理器113可能是一种集成电路芯片,具有信号的处理能力。上述的处理器113可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(digital signalprocessor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本实施例中的电子设备100可以用于执行本申请实施例提供的各个方法中的各个步骤。下面通过几个实施例详细描述日志文件聚类方法的实现过程。

实施例二

请参阅图2,是本申请实施例提供的日志文件聚类方法的流程图。下面将对图2所示的具体流程进行详细阐述。

步骤201,对待聚类日志集进行计算,以得到所述待聚类日志中的每一条日志对应的日志向量,得到向量集。

本实施例中,每一条日志可以对应一个日志向量,该向量集中的日志向量的数量可以与待聚类日志集中的日志数量相同。

在一种实施方式中,针对待聚类日志中的目标日志,可以先计算目标日志的各个词对应的词向量,然后根据所述各个词对应的词向量计算所述目标日志的日志向量。该目标日志为待聚类日志中的任意一条日志。

可选地,可以将目标日志的各个词对应的词向量的均值作为日志向量。

可选地,可以使用word2vector计算目标日志的各个词对应的词向量。

示例性地,该向量集可以表示为D=[x1,x2,x3,…,xn]。后面以向量集以D进行描述。

步骤202,对所述待聚类日志集进行解析,以确定出勿连约束集合。

可选地,可以对待聚类日志集中的各个日志进行解析,以确定各个日志中的勿连关系。

任意两条日志为勿连关系,则表示两条日志是不是同一分类的两条日志。

该勿连约束集合中可以包括多个元素。每一个元素可以包括一对具有勿连关系的日志。

示例性地,该勿连约束集合可以表示为C=[(l1,l2),(l3,l4),(l5,l6),…],其中,l1和l2为不是同一分类的两条日志,l3和l4为不是同一分类的两条日志,l5和l6为不是同一分类的两条日志。

示例性地,可以预先设定勿连规则,根据该勿连规则确定出待聚类日志集中的各个日志是不是勿连关系。

示例性地,根据预设设定勿连规则对待聚类日志集中的日志进行解析,将解析通过与解析未通过的两条日志加入勿连约束集合。

在一个实例中,预先设定的勿连规则可以是日志中存在空格,例如,针对第一条日志的解析结果是存在空格,则解析通过,针对第二条日志的解析结果是不存在空格,则解析未通过。

可以知道的是,上述的预先设定的勿连规则可以根据使用场景设置,不同的使用场景对应的预先设定的勿连规则也可以不同。

可选地,可以根据预先设定的勿连规则确定出用于解析待聚类日志的解析代码。通过该解析代码对待聚类日志集中的各条日志进行解析,以确定出勿连约束集合。

步骤203,基于所述勿连约束集合,对所述向量集进行半监督聚类,以得到所述向量集的分类结果。

在一实施方式中,如图3所示,步骤203可以包括步骤2031至步骤2033。

步骤2031,从所述向量集中随机抽取第一数量的初始中心向量。

该第一数量可以是当前需要对待聚类日志集分类的数量。

示例性地,该第一数量的初始中心向量可以作为第一数量的簇的中心向量。

示例性地,第一数量可以表示为k

步骤2032,计算目标向量与各个所述初始中心向量的距离。

目标向量为所述向量集中的任意一个向量。

计算向量集中的日志向量x

步骤2033,根据所述距离与所述勿连约束集合确定出所述目标向量所在的分类,以得到所述向量集的分类结果。

该分类结果包含第一数量项分类。

在一种实施方式中,当该目标向量与目标簇中的各个日志向量均不受该勿连约束集合的限定的情况下,将该目标向量写入该目标簇中。该目标簇为该目标向量距离最近的初始中心向量对应的簇。

在一个实例中,若计算向量集中的日志向量x

示例性地,若日志向量x

在一个实例中,若计算向量集中的日志向量x

将向量集中的所有日志向量进行步骤2032和步骤2033的处理,则可以得到k

可选地,针对k

其中,μ

在一实施方式中,如图4所示,步骤203可以包括步骤2034至步骤2036。

步骤2034,基于所述勿连约束集合,对所述向量集进行半监督聚类,以得到所述向量集的多项初始分类结果。

每一项初始分类结果对应的分类项数不同。

步骤a,从所述向量集中随机抽取指定数量的初始中心向量。

该指定数量可以是当前需要对待聚类日志集初始分类的数量。

示例性地,可以预先设置有候选集分类簇集合L

步骤b,计算目标向量与各个所述初始中心向量的距离,所述目标向量为所述向量集中的任意一个向量。

步骤c,根据所述距离与所述勿连约束集合确定出所述目标向量所在的分类,以得到所述向量集的初始分类结果。

该初始分类结果包含指定数量项分类。重复执行步骤a至步骤c则可以得到分类数量为k

关于步骤a至步骤c的实现过程与步骤2031至步骤2033的过程相似,关于步骤a至步骤c的实现过程可以参阅步骤2031至步骤2033中的描述,在此不再赘述。

步骤2035,使用聚类评价算法计算每一项初始分类结果对应的聚类指数。

步骤2036,根据所述聚类指数,从所述多项初始分类结果中确定出分类结果。

在一种实施方式中,步骤2036可以被实施为:使用DBI(Davies-Boulding)聚类评价算法计算每一项初始分类结果对应的聚类指数。

示例性地,基于Davies-Boulding聚类评价算法计算聚类指数:

C={C

其中,C

示例性地,该dist所计算的距离可以是余弦距离、欧几里得距离等。

在一可选的实施方式中,可以将聚类指数最小的初始分类结果作为分类结果。

例如,分类数量为k的初始分类结果的聚类指数最小,则可以将分类数量为kd的初始分类结果作为分类结果。

可选地,还可以对分类结果对应的各类日志进行筛选,从而可以使每一类日志集中的日志数量更少。

如图5所示,日志文件聚类方法还可以包括步骤204和步骤205。

步骤204,将所述分类结果中的目标类中的日志簇分成多段日志集。

该目标类为待聚类日志集的分类结果中的任意一类。

可选地,可以将目标类中的日志簇均等地分成多段日志集。

可选地,也可以将目标类中的日志簇不均等地分成多段日志集。

在本实施例中,每个日志簇的分段数量可以按照需求设置,本实施例不以日志簇的分段数量为限。示例性地,每个日志簇的分段数量可以根据该日志簇的日志数量进行确定。例如,日志簇中的日志数量越大,对应的分段数量也可以越大。

步骤205,从所述多段日志集中筛选出目标日志集。

目标日志集为所述目标类的日志样本集。该日志样本用于供用户使用。

可选地,可以根据每段日志集的日志表达力确定出目标日志集。示例性地,可以通过计算每段日志集中的信息熵,以确定每段日志集的日志表达力。

本实施例中,在每一类日志簇中均筛选出一日志集,作为日志样本集。

通过对日志集的筛选,可以确定出日志样本数量更少,表达力更强的日志集。

在一实施方式中,可以通过计算每段日志集中的信息熵确定出目标日志集,如图6所示,步骤205可以包括步骤2051和步骤2052。

步骤2051,计算所述多段日志集中的每段日志集的信息熵。

示例性地,计算每段日志集的信息熵的计算公式可以如下所示:

其中,d

示例性地,d

步骤2052,根据每段日志集的所述信息熵确定出目标日志集。

在一实施方式中,可以选目标类中的所有日志集中日志集的信息熵最大的日志集作为目标日志集。

示例性地,可以将目标类中的所有日志集的信息熵从大到小进行排序,将排序为第一的信息熵对应的日志集作为目标日志集。

示例性地,若上述分类结果的分类数量为k,则对应确定出的k项类别下的目标日志集可以表示为:D'=[D

其中,D'=[D

本申请实施例提供的日志文件聚类方法,与无监督聚类方法,具有更高的准确性。由于本申请实施例提供的方法结合了勿连约束集合,实现对日志文本聚类的半监督。进一步地,本申请实施例中,通过利用预先设定勿连规则首先对待聚类日志集中的日志进行粗分类,粗分类的结果加入勿连约束集合,共同将该勿连约束集合输入到半监督聚类中,达到更好分类效果。

进一步地,由于使用半监督的方法不需要像监督聚类方法所需的人工标注的样本,能够节约人力成本。进一步地,针对通过人工观测各分类下大量文本的时耗问题,可以使用半监督的方式确定分类结果后,还可以基于熵增原理对各类下的日志集进行筛选,从而可以使供用户观察的日志样本更少,在保证了采集到的样本具有代表性前提下节约了人工成本。

实施例三

基于同一申请构思,本申请实施例中还提供了与日志文件聚类方法对应的日志文件聚类装置,由于本申请实施例中的装置解决问题的原理与前述的日志文件聚类方法实施例相似,因此本实施例中的装置的实施可以参见上述方法的实施例中的描述,重复之处不再赘述。

请参阅图7,是本申请实施例提供的日志文件聚类装置的功能模块示意图。本实施例中的日志文件聚类装置中的各个模块用于执行上述方法实施例中的各个步骤。日志文件聚类装置包括:计算模块301、确定模块302以及聚类模块303;其中,

计算模块301,用于对待聚类日志集进行计算,以得到所述待聚类日志中的每一条日志对应的日志向量,得到向量集;

确定模块302,用于对所述待聚类日志集进行解析,以确定出勿连约束集合;

聚类模块303,用于基于所述勿连约束集合,对所述向量集进行半监督聚类,以得到所述向量集的分类结果。

一种可能的实施方式中,本申请实施例提供的日志文件聚类装置还包括:

分段模块,用于将所述分类结果中的目标类中的日志簇分成多段日志集,所述目标类为所述分类结果中的任意一类;

筛选模块,用于从所述多段日志集中筛选出目标日志集,所述目标日志集为所述目标类的日志样本集。

一种可能的实施方式中,筛选模块,用于:

计算所述多段日志集中的每段日志集的信息熵;

根据每段日志集的所述信息熵确定出目标日志集。

一种可能的实施方式中,聚类模块303,用于:

从所述向量集中随机抽取第一数量的初始中心向量;

计算目标向量与各个所述初始中心向量的距离,所述目标向量为所述向量集中的任意一个向量;

根据所述距离与所述勿连约束集合确定出所述目标向量所在的分类,以得到所述向量集的分类结果,所述分类结果包含第一数量项分类。

一种可能的实施方式中,聚类模块303包括:初始聚类单元、指数计算单元以及结果确定单元。

初始聚类单元,用于基于所述勿连约束集合,对所述向量集进行半监督聚类,以得到所述向量集的多项初始分类结果,每一项初始分类结果对应的分类项数不同;

指数计算单元,用于使用聚类评价算法计算每一项初始分类结果对应的聚类指数;

结果确定单元,用于根据所述聚类指数,从所述多项初始分类结果中确定出分类结果。

一种可能的实施方式中,指数计算单元,用于:

使用DBI聚类评价算法计算每一项初始分类结果对应的聚类指数。

一种可能的实施方式中,计算模块301,用于:

计算目标日志的各个词对应的词向量,所述目标日志为待聚类日志中的任意一条日志;

根据所述各个词对应的词向量计算所述目标日志的日志向量。

此外,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的日志文件聚类方法的步骤。

本申请实施例所提供的日志文件聚类方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的日志文件聚类方法的步骤,具体可参见上述方法实施例,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号