首页> 中国专利> 基于多元网络安全设备的网络安全数据归一化处理方法

基于多元网络安全设备的网络安全数据归一化处理方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明涉及一种基于多元网络安全设备的网络安全数据归一化处理方法，属于网络安全技术领域。该方法包括以下步骤：获取各网络安全设备的网络安全数据；其中，网络安全数据包括数据名称、设备类型、数据格式、编码格式及数据内容；每一种网络安全设备唯一对应一种设备类型；确定每一种网络安全设备的网络安全数据对应的数据解析法；对于每一种网络安全设备的网络安全数据，基于所述数据解析法及所述数据字段格式解析所述数据内容，生成数据内容解析结果；建立每一种网络安全设备的网络安全数据的数据格式与归一化数据格式之间的映射关系；基于所述映射关系，将生成的数据内容解析结果映射至归一化数据格式中，得到归一化的数据集。

著录项

公开/公告号CN113850069A

专利类型发明专利
公开/公告日2021-12-28

原文格式PDF
申请/专利权人北京京航计算通讯研究所;
展开▼

申请/专利号CN202111095338.6
发明设计人李同宇;宫国富;张斌;郑宇宁;张军锋;王俊;
展开▼

申请日2021-09-17
分类号G06F40/205(20190101);
代理机构11386 北京天达知识产权代理事务所(普通合伙);
代理人庞许倩
地址 100074 北京市丰台区云岗北里西区1号院
入库时间 2023-06-19 13:26:15

说明书

技术领域

本发明涉及网络安全技术领域，尤其涉及一种基于多元网络安全设备的网络安全数据归一化处理方法。

背景技术

网络安全数据处理一般可以分为三部分。第一部分数据接入，是将各个软硬件部分数据接入，进行统一处理；第二部分数据融合，是将处理过的数据进行合并，形成具有相同特征或者属性的数据；第三部分数据关联，是结合数据源关系，时序关系等进行联系，形成数据图谱。

现有技术中，常常用完整性、一致性和准确性这三个因素来衡量数据质量，如果在这三个方面数据能满足其应用要求，那么它是高质量的。然而，由于各种机器或人为的原因，现实世界的数据会出现缺失、不一致和错误等情况，此外数据的时效性、可信性也会影响对数据的理解和处理。因此，如何对接入的网络安全数据进行归一化处理、克服数据质量较低、数据处理延迟高等问题，是亟需解决的问题。

发明内容

鉴于上述的分析，本发明实施例旨在提供一种基于多元网络安全设备的网络安全数据归一化处理方法，用以解决现有技术中多元网络安全设备的网络安全数据不一致、数据缺失等导致的数据质量较低、数据处理延迟高等问题。

本发明公开了一种基于多元网络安全设备的网络安全数据归一化处理方法，包括以下步骤：

获取各网络安全设备的网络安全数据；其中，网络安全数据包括数据名称、设备类型、数据格式、编码格式及数据内容；每一种网络安全设备唯一对应一种设备类型；

确定每一种网络安全设备的网络安全数据对应的数据解析法；

对于每一种网络安全设备的网络安全数据，基于所述数据解析法及所述数据字段格式解析所述数据内容，生成数据内容解析结果；

建立每一种网络安全设备的网络安全数据的数据格式与归一化数据格式之间的映射关系；基于所述映射关系，将生成的数据内容解析结果映射至归一化数据格式中，得到归一化的数据集。

在上述方法的基础上，本发明还做出了如下改进：

进一步，所述数据名称，用于描述网络安全数据的数据源信息；

所述设备类型，用于描述网络安全设备的设备类型；

所述数据格式，用于描述匹配于所述设备类型的日志文件中的多个数据字段格式；

数据内容，用于描述网络安全数据的一条日志文件信息；

所述编码格式，用于描述数据内容的编码格式。

进一步，所述数据解析法分为：

编码解析法，包括：CEF解析法，XML解析法及JSON解析法；

正则解析法，包括：正则表达式解析法，Grok正则解析法；

符号解析法，包括：分隔符解析法，键值对解析法；

以及，

自定义解析法。

进一步，确定每一种网络安全设备的网络安全数据对应的数据解析法，包括：

对于每一种网络安全设备，获取该网络安全设备的历史的网络安全数据；

读取该历史的网络安全数据的编码格式，

若存在对应于该编码格式的编码解析法，则利用该编码解析法解析历史的网络安全数据中的数据内容，得到编码解析法对应的历史数据内容解析结果；

读取该历史的网络安全数据的数据字段格式，

若数据字段格式中包含表达式，则还利用正则解析法解析历史的网络安全数据中的数据内容，得到正则解析法对应的历史数据内容解析结果；

若数据字段格式中仅包含符号，则还利用符号解析法解析历史的网络安全数据中的数据内容，得到符号解析法对应的历史数据内容解析结果；

对比以上解析法得到的历史数据内容解析结果的解析准确率，选取解析准确率最高的解析法为该种类网络安全设备的网络安全数据对应的数据解析法。

进一步，若解析准确率最高值低于解析准确率阈值，则根据该种类网络安全设备的网络安全数据的编码方式和数据格式，生成自定义解析法；并将生成的自定义解析法确定为该种类网络安全设备的网络安全数据对应的数据解析法。

进一步，通过执行以下建立所述映射关系：

若网络安全数据的数据格式与归一化数据格式中的数据字段格式不一致，则对网络安全数据中不一致的数据字段格式进行添加字段、删除字段、裁剪字段、合并字段或重命名字段的处理，从而建立网络安全数据的数据格式与归一化数据格式之间的一一映射关系。

进一步，将生成的数据内容解析结果映射至归一化数据格式中，包括：

按照建立映射关系中数据字段格式的处理方式，处理所述数据内容解析结果，并将处理后的数据内容解析结果映射至归一化数据格式中，得到归一化的数据集。

进一步，将生成的数据内容解析结果映射至归一化数据格式中，包括：

若对网络安全数据中不一致的数据字段格式执行添加数据字段格式处理，还需要补齐所添加的数据字段格式对应的数据，并映射至归一化数据格式中，得到归一化的数据集。

进一步，生成数据内容解析结果后，还包括校验数据内容解析结果的步骤，将校验通过的数据内容解析结果映射至归一化数据格式中。

进一步，所述网络安全设备包括：

应用系统、主机、存储设备、网络设备、安全设备、虚拟化设备、中间件及数据库。

与现有技术相比，本发明至少可实现如下有益效果之一：

本发明提供的基于网络安全防护系统的多元数据接入及预处理方法，突破了多源数据采集技术、数据预处理技术等关键技术，实现对网络安全防护系统的多元数据接入方法。其提供了完善的多元数据采集和处理，实现对海量日志数据的实时综合监控。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明实施例提供的基于多元网络安全设备的网络安全数据归一化处理方法流程图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

本发明的具体实施例1，公开了一种基于多元网络安全设备的网络安全数据归一化处理方法，流程图如图1所示，包括以下步骤：

步骤S1：获取各网络安全设备的网络安全数据；其中，网络安全数据包括数据名称、设备类型、数据格式、编码格式及数据内容；每一种网络安全设备唯一对应一种设备类型；

示例性地，本实施例中的网络安全设备包括：应用系统、主机、存储设备、网络设备、安全设备、虚拟化设备、中间件及数据库；其中，

应用系统可以为邮件、应用交付系统等；

主机可以为Solaris、AIX(Advanced Interactive eXecutive，一套类UNIX操作系统)、linux、Windows等；

存储设备可以为EMC(由美国易安信公司研发)、Netapp(由美国网域存储技术有限公司研发)等；

网络设备可以为负载均衡、交换机等；

安全设备可以为安全审计、防火墙、堡垒机等；

虚拟化设备可以为Xenserver、KVM(KeyboardVideo Mouse)等；

中间件可以为Apach、websphere等；

数据库可以为oracle、HBase等；

还可以包括其他设备，如网络打印机等。

优选地，网络安全数据中的各项内容描述如下：

数据名称，用于描述网络安全数据的数据源信息；数据源信息表示数据的来源，示例性的，如接收网络安全数据的网络安全设备的端口ID、IP地址等；

设备类型，用于描述网络安全设备的设备类型；设备类型包括应用系统、主机、存储设备、网络设备、安全设备、虚拟化设备、中间件及数据库；如，交换机对应的设备类型为网络设备、堡垒机对应的设备类型为安全设备、Xenserver对应的数据类型为虚拟化设备。

数据格式，用于描述匹配于所述设备类型的日志文件中的多个数据字段格式；

数据内容，用于描述网络安全数据的日志文件信息；需要说明的是，各网络安全设备的网络安全数据中的数据格式及数据内容，因网络安全设备的不同而不同，各网络安全设备的网络安全数据中的数据格式及数据内容采用现有的采集方式获得，本实施例对这里的数据内容不作限定。

编码格式，用于描述数据内容的编码格式，如UTF8、CEF、XML、JSOM等。

步骤S2：确定每一种网络安全设备的网络安全数据对应的数据解析法；

优选地，本实施例中涉及的数据解析法分为：

编码解析法，包括：

CEF解析法：根据CEF格式的数据，将CEF数据内容解析出来；

XML解析法：将带有XML格式的数据内容解析出来；

JSON解析法：将带有JSON格式的数据解析出来；

正则解析法，包括：

正则表达式解析法：适用于复杂的其他形式无法解析的日志，采用正则表达式的方式对复杂日志进行解析；

Grok正则解析法：适用于复杂的其他形式无法解析的日志，采用GROK表达式进行解析；

符号解析法，包括：

分隔符解析法：当数据格式是以以分隔符将每条数据中的内容分开时，则填写该分隔符样式，程序识别每个分隔符，将每条数据的内容提取出来，例如以“，”分隔，则程序先识别“，”，然后再将之间数据内容再提取出来；

键值对解析法：以字段分隔符、键值分隔符分开每条数据，则填写字段分隔符和键值分隔符样式，程序根据这两种分隔符，识别出键值对数据；

以及，

自定义解析法，根据网络安全设备的网络安全数据的编码方式和数据格式，生成自定义解析法。

在该步骤中，通过执行以下操作确定每一种网络安全设备的网络安全数据对应的数据解析法，包括：

对于每一种网络安全设备，获取该网络安全设备的历史的网络安全数据；

读取该历史的网络安全数据的编码格式，

若存在对应于该编码格式的编码解析法，则利用该编码解析法解析历史的网络安全数据中的数据内容，得到编码解析法对应的历史数据内容解析结果；

读取该历史的网络安全数据的数据字段格式，

若数据字段格式中包含表达式，则还利用正则解析法解析历史的网络安全数据中的数据内容，得到正则解析法对应的历史数据内容解析结果；

若数据字段格式中仅包含符号，则还利用符号解析法解析历史的网络安全数据中的数据内容，得到符号解析法对应的历史数据内容解析结果；

对比以上解析法得到的历史数据内容解析结果的解析准确率，选取解析准确率最高的解析法为该种类网络安全设备的网络安全数据对应的数据解析法。解析准确率阈值根据后续网路安全分析的性能要求适应性设置，一般地，解析准确率阈值超过70％。

若解析准确率最高值低于解析准确率阈值，则根据该种类网络安全设备的网络安全数据的编码方式和数据格式，生成自定义解析法；并将生成的自定义解析法确定为该种类网络安全设备的网络安全数据对应的数据解析法。

自定义解析法可基于以下过程生成：

根据该种类网络安全设备的网络安全数据的编码方式及数据格式，对历史的网络安全数据的数据内容进行切分，得到对应于该编码方式的、每一数据字段格式的数据字段内容；

选取适配于每一数据字段格式的数据字段内容的相应的解析子规则；该过程类似每一设备类型对应的数据解析法；具体地，

读取该数据字段内容的数据字段格式，

若数据字段格式中包含表达式，则还利用正则解析法解析该数据字段内容，得到正则解析法对应的数据字段内容解析数据；

若数据字段格式中仅包含符号，则还利用符号解析法解析该数据字段内容，得到符号解析法对应的数据字段内容解析数据；

对比以上解析法得到的数据字段内容解析数据的解析准确率，选取解析准确率最高的数据解析法为该数据字段内容解析数据对应的数据解析法。

将数据格式中所有数据字段格式之间的关联关系映射为相应解析子规则之间的关联关系；

整合所有解析子规则及其关联关系，生成自定义解析法。

步骤S3：对于每一种网络安全设备的网络安全数据，基于所述数据解析法及所述数据字段格式解析所述数据内容，生成数据内容解析结果；

为提升数据内容解析结果的准确度，生成数据内容解析结果后，还包括校验数据内容解析结果的步骤，将校验通过的数据内容解析结果映射至归一化数据格式中；若校验不通过，则重新解析所述数据内容，重新解析可基于原来的数据解析法实现，也可替换为其他数据解析法实现。

示例性地，通过执行以下操作校验数据内容解析结果：

将数据内容解析结果与解析前的相应的数据内容进行匹配校验，若匹配成功，则校验通过；否则，校验不通过。

示例性地，这里的匹配校验是指：将对应于每一数据字段格式的解析前的数据内容和解析后的数据内容解析结果均进行一致性判断，若一致，则匹配成功，校验通过。

步骤S4：建立每一种网络安全设备的网络安全数据的数据格式与归一化数据格式之间的映射关系；基于所述映射关系，将生成的数据内容解析结果映射至归一化数据格式中，得到归一化的数据集。

优选地，通过执行以下建立所述映射关系：

若网络安全数据的数据格式与归一化数据格式中的数据字段格式不一致，则对网络安全数据中不一致的数据字段格式进行添加字段、删除字段、裁剪字段、合并字段或重命名字段的处理，从而建立网络安全数据的数据格式与归一化数据格式之间的一一映射关系；否则，直接建立建立网络安全数据的数据格式与归一化数据格式之间的一一映射关系。

其中，

添加字段，指在网络安全数据的数据格式中增加网络安全数据的数据格式中没有、而归一化数据格式数据字段格式出现的数据字段格式；这样在解析的数据中就可以每次自动添加相应字段。

删除字段，指从网络安全数据的数据格式中删除归一化数据格式的数据字段格式没有的数据字段格式；

裁剪字段，指若网络安全数据的数据格式中的一个数据字段格式对应归一化数据格式中的多个数据字段格式，则根据归一化数据格式中的多个数据字段格式对网络安全数据的数据格式中的相应数据字段格式进行裁剪；

合并字段，指若网络安全数据的数据格式中的多个数据字段格式对应归一化数据格式中的一个数据字段格式，则根据归一化数据格式中的一个数据字段格式对网络安全数据的数据格式中的相应数据字段格式进行合并；

重命名字段，指网络安全数据的数据格式中的数据字段格式与归一化数据格式中的数据字段格式含义一致、名称不一致，则将网络安全数据的数据格式中的数据字段格式调整成同归一化数据格式中的相应数据字段格式。

优选地，将生成的数据内容解析结果映射至归一化数据格式中，包括：

同时，若对网络安全数据中不一致的数据字段格式执行添加数据字段格式处理，还需要补齐所添加的数据字段格式对应的数据，并映射至归一化数据格式中，得到归一化的数据集。

需要说明的是，归一化数据格式的指定与归一化的数据集的用途直接相关，本实施例对此不作具体限定。

示例性地，归一化数据格式可以为：解析规则ID、事件摘要、事件级别、应用协议、传输协议、初始时间、源地址、源端口、目的地址、目的端口、设备地址、发生时间、接收时间、发送流量、接收流量、持续时间、原始日志、厂商、发送包数、接收包数、解析规则名称、五元组、流ID、结束时间、数据源、二元组、单位、事件内容、协议、总流量、总包数、告警、事件分类、事件名称。相应地，归一化的数据集的具体形式举例如下：

{"解析规则ID":72190fa7-2a8d-457d-8d83-4985ac8c9b48,"事件摘要":nta_flow,"事件级别":信息,"应用协议":rx,"传输协议":UDP,"初始时间":2020-12-2923:33:05.384,"源地址":10.18.68.102,"源端口":2222,"目的地址":10.17.4.23,"目的端口":800,"设备地址":10.21.172.175,"发生时间":2020-12-2923:33:05.384,"接收时间":2020-12-2917:22:29.069,"发送流量":122496,"接收流量":131648,"持续时间":21090132,"原始日志":{"@timestamp":1609255985384,"@end_timestamp":1609277075516,"sens or_id":"7d43b783-eee2-4f49-b3d1-911c4921bd74","flow_id":455332236222203,"protocol":"flow","src_ip":"10.18.68.102","src_port":2222,"dst_ip":"10.17.4.23","dst_port":800,"proto":"UDP","adjust":0,"ndpi_app_proto":"rx","app_proto":"rx","app_proto_ts":"unknown","app_proto_tc":"unknown","flow":{"pkts_toserver":704,"pkts_toclient":704,"bytes_toserver":122496,"bytes_toclie nt":131648,"start":"2020-12-29T23:33:05.384763+0800","end":"2020-12-30T05:24:35.516385+0800","age":21090,"state":"established","reason":"timeou t","alerted":false},"nta_dispatcher":"flow"},"厂商":NTA(HanSight),"发送包数":704,"接收包数":704,"解析规则名称":nta_dispatcher,"五元组":10.18.68.102_2222_flow_10.17.4.23_800,"流ID":455332236222203,"结束时间":2020-12-3005:24:35.516,"数据源":NTA(HanSight),"二元组":10.18.68.102_10.17.4.23,"单位":bytes,"事件内容":没有数据,"协议":flow,"总流量":254144,"总包数":1408,"告警":false,"事件分类":网络访问/会话连接,"事件名称":网络连接}。

综上，本实施例针对多元网络安全设备的海量数据归一化处理过程中容易出现的缺失、不一致错误等情况，形成了基于多元网络安全设备的网络安全数据归一化处理方法，突破多源数据接入、数据预处理技术等关键技术，形成一套完整且有效的多元数据接入及预处理方法，实现了对网络安全防护过程中多元网络安全设备的网络安全数据的有效处理，有效提升了对多元数据接入的精准性和可靠性。相较于传统模式中对每种网络安全设备的网络安全数据均进行单独处理的方式，将数据归一化处理成统一格式具有后续分析速度快、信息检索快、能够快速对数据进行关联处理、所有数据能够统一处理等明显优点。其提供了完善的数据处理方法，能够提升各应用场景下网络安全防护系统的多元数据接入及预处理，实现对海量日志数据的快速准确的数据分析处理。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于多元网络安全设备的网络安全数据归一化处理方法 [P] . 中国专利： CN113850069A . 2021-12-28
2. 基于人工智能的多元异构网络安全数据可视化系统 [P] . 中国专利： CN108494803A . 2018-09-04
3. PROVIDING NETWORK BEHAVIOR VISIBILITY BASED ON EVENTS LOGGED BY NETWORK SECURITY DEVICES [P] . 美国专利： US2017155562A1 . 2017-06-01

机译：基于网络安全设备记录的事件来提供网络行为可见性
4. Cyber security device and method based on cyber security life-cycle computer readable medium for storing a program for executing the method [P] . 韩国专利： KR101674198B1 . 2016-11-08

机译：基于网络安全生命周期计算机可读介质的网络安全设备和方法，用于存储执行该方法的程序
5. CYBER SECURITY DEVICE BASED ON CYBER SECURITY LIFE CYCLE AND METHOD THEREOF, AND COMPUTER READABLE RECORDING MEDIUM RECORDING PROGRAM FOR EXECUTING SAME METHOD [P] . 韩国专利： KR20160126589A . 2016-11-02

机译：基于网络安全生命周期的网络安全设备及其方法，以及用于执行相同方法的计算机可读介质记录程序