公开/公告号CN112667766A
专利类型发明专利
公开/公告日2021-04-16
原文格式PDF
申请/专利权人 中国科学院信息工程研究所;
申请/专利号CN202011562097.7
申请日2020-12-25
分类号G06F16/31(20190101);G06F16/2457(20190101);G06K9/62(20060101);H04L29/06(20060101);
代理机构11200 北京君尚知识产权代理有限公司;
代理人邱晓锋
地址 100093 北京市海淀区闵庄路甲89号
入库时间 2023-06-19 10:38:35
技术领域
本发明涉及计算机网络安全领域,可用于网络威胁情报元数据的融合或冲突解决领域。
背景技术
威胁情报是一种基于证据的知识,主要包括场景、机制、指标、含义和可操作的建议等。基于高质量的威胁情报信息,可以为主体响应现存或新兴的威胁提供决策支持。元数据被定义为描述数据的数据,对数据及信息资源的描述性信息。网络威胁情报元数据指的是描述网络威胁情报数据的数据。对于网络威胁情报数据,同样也要进行规范化表示或描述,这样才能用于处理、分析以及与其它厂商或平台对接。参照国际标准、OpenIOC、IODEF(Incident Object Deion and Exchange Format)、STIX(Structure Threat InformationeXpression)及实际业务需求,对相应实体进行了定义。为了达到融合的目的,需要将这些实体映射为元数据类型,结合实际应用场景,最终映射的元数据类型共有十九种,分别是IP(ip)、URL(url)、Sample(样本)、Domain(域名)、Whois(域名注册信息)、AS(全球自治域信息)、Cert(数字证书)、Vul(漏洞)、MailboxBasic(邮箱)、MailboxReputation(邮箱信誉)、Account(账号)、Other(其它可观察物)、Tool(攻击工具)、TTP(攻击手法)、Actor(威胁主体)、Target(威胁目标)、Incident(安全事件)、Report(威胁报告)、Action(应对措施)。
当前,随着网络空间攻防对抗技术不断发展,针对重要信息系统的攻击多发且难以发现,攻击者的攻击策略呈现出多样性和复杂性的特点,攻击成本越来越低,对于防御者而言,其检测和对抗网络攻击的难度也越来越大,全球网络空间安全威胁日益突出和严峻。在这种情况下,使用传统的网络空间防御策略就变得更为低效,防御者更容易处于被动的位置。因此需要通过多种关键及新型防护技术的协同联动,做到知己知彼、及时发现、主动防御,获得高质量的网络威胁情报数据对于该问题就显得尤为重要,网络安全威胁情报利用和共享技术的出现与发展使全球网络空间安全防护的提升变得更为可能。
网络安全威胁情报利用和共享技术通过多源异构网络威胁情报数据的快速汇聚融合技术对异构威胁情报的实体进行有效映射,分析挖掘网络威胁在多个层面的相似性,进而统计分析已知攻击模式,并通过模式关联发现进行中的或潜在的威胁;通过多源异构网络威胁情报融合系统的构建,获取高质量情报,为重要信息系统的风险预警、威胁发现与追踪溯源等主动防御提供有深度、有广度、有针对性的重要情报支撑,进而提升整个网络安全空间的主动防御和网络震慑能力。但在实际问题中,我们从网络空间中获得的网络威胁情报数据往往是多源异构,数据量级别往往很大,数据之间存在冲突,且构建网络威胁情报信息融合的分析架构是网络威胁情报分析处理技术的研究基础。因此对于多源异构网络空间威胁情报融合技术的研究与系统构建就显得非常有价值。
目前,在网络威胁情报融合领域,比较主流的方式是基于规则、字段映射、模板、人工等形式进行情报数据融合,这些融合方法的融合粒度更加粗糙,且对融合后的结果的输出并不灵活。
发明内容
针对上述现状与存在的问题,本发明提供了一个网络威胁情报元数据融合系统与七种融合方法,能够以一种更加细粒度的方式进行网络威胁情报融合。
本发明采用的技术方案如下:
一种网络威胁情报元数据融合的方法,包括以下步骤:
获取非结构化网络威胁情报数据并将其转化为结构化网络威胁情报数据;
将结构化网络威胁情报数据映射为网络威胁情报元数据;
将网络威胁情报元数据进行拆分;
对拆分后的网络威胁情报元数据进行融合;
对融合后的网络威胁情报元数据进行定制化配置。
进一步地,所述获取非结构化网络威胁情报数据并将其转化为结构化网络威胁情报数据,包括:从各个情报源收集开源情报、购买付费情报和自产情报,并将这些情报数据用已有的规范表示,将收集的非结构化网络威胁情报数据转化为规范化的结构化数据。
进一步地,所述将结构化网络威胁情报数据映射为网络威胁情报元数据,包括:将结构化网络威胁情报数据的字段中与元数据有关联的字段映射为多级属性表示的形式,其它字段映射为一级属性表示的形式。
进一步地,所述将网络威胁情报元数据进行拆分,包括:以网络威胁情报元数据的字段或属性为基本单位,对网络威胁情报元数据进行充分拆分。
进一步地,所述对拆分后的网络威胁情报元数据进行融合,包括:依据每类网络威胁情报元数据的特性,选择不同的融合算法对网络威胁情报元数据进行融合。
进一步地,所述融合算法包括:多数投票算法、求和算法、均值算法、投资算法、联合投资算法、真值发现算法和半监督真值发现算法。
进一步地,所述对融合后的网络威胁情报元数据进行定制化配置,包括:对融合后的元数据根据用户实际需求配置输出的字段,并以外部接口的形式供用户使用。
一种采用上述方法的网络威胁情报元数据融合系统,其包括:
非结构化网络威胁情报数据转化为结构化网络威胁情报数据模块,用于获取非结构化网络威胁情报数据并将其转化为结构化网络威胁情报数据;
结构化网络威胁情报数据向元数据的映射模块,用于将结构化网络威胁情报数据映射为网络威胁情报元数据;
网络威胁情报元数据拆分模块,用于将网络威胁情报元数据进行拆分;
网络威胁情报元数据融合模块,用于对拆分后的网络威胁情报元数据进行融合;
融合后输出结果的定制化配置模块,用于对融合后的网络威胁情报元数据进行定制化配置。
本发明的有益效果如下:
通过本发明可以实现对网络威胁情报数据以更加细粒度的方式进行融合,且能够自动化配置融合后的结果。将配置后的结果以外部接口的形式提供给用户使用,用户体验效果更好。
附图说明
图1为本发明提供的系统的模块结构示意图;
图2为本发明结构化网络威胁情报映射为网络威胁情报元数据的方式(以IP信誉信息为例)示意图;
图3为本发明网络威胁情报元数据(以IP元数据为例)拆分方式示意图;
图4为本发明提供的威胁情报元数据融合算法Majority Vote(多数投票)执行流程图;
图5为本发明提供的威胁情报元数据融合算法(迭代)执行流程图;
图6为本发明提供的威胁情报元数据融合算法(半监督真值发现算法)执行流程图;
图7为本发明系统输出模板配置方式示意图(以IP元数据为例);
图8为本发明用户使用系统生成的外部链接查询方式示意图。
具体实施方式
为了使本发明的技术方案及特征和优点更加清晰易懂,下面结合附图对本发明中的技术细节进一步说明。
本发明的网络威胁情报元数据融合的方法,包括以下步骤:
(1)首先,从各个情报源中获取网络威胁情报数据,这些网络威胁情报数据包括:开源情报、购买的付费情报和自产情报。由于这些情报数据是非结构化的,如果要进行自动化处理,需要将这些网络威胁情报数据进行规范化表示,即转化为结构化网络威胁情报数据。参照国际标准、OpenIOC、IODEF(Incident Object Deion and Exchange Format)、STIX(Structure Threat Information eXpression)及实际业务需求,定义了适用于本系统的网络威胁情报规范。为了达到融合的目的,需要将这些定义的实体规范映射为元数据类型。
(2)将(1)中定义的规范表示的结构化网络威胁情报数据映射为网络威胁情报元数据表示的形式;
(3)对各个元数据进行拆分,拆分时以元数据的字段或属性为基本单位,将其充分拆分;
(4)依据每类网络威胁情报元数据的特性,选择不同的融合算法对网络威胁情报元数据进行融合,融合算法包括:Majority voting(多数投票算法)、Sums(求和算法)、Average.Log(均值算法)、Investment(投资算法)、PooledInvestment(联合投资算法)、TruthFinder(真值发现算法)和Semi-Supervised Truth Discovery(半监督真值发现算法);
(5)对融合后的元数据根据用户实际需求配置输出的字段,并以外部接口的形式供用户使用。
本发明提供了一个网络威胁情报元数据融合系统,图1为本系统的整体框架图,本系统主要包含五个模块:非结构化网络威胁情报数据转化为结构化网络威胁情报数据、结构化网络威胁情报数据向元数据的映射、网络威胁情报元数据拆分、网络威胁情报元数据融合、融合后输出结果的定制化配置。下面对各个模块的处理过程进行详细说明。
非结构化网络威胁情报数据转化为结构化网络威胁情报数据模块:
从各个情报源收集开源情报、购买付费情报和自产情报,并将这些情报数据用已有的规范表示,这些规范在基于业界认可的国际标准、OpenIOC、IODEF(Incident ObiectDeion and Exchange Format)、STIX(Structure Threat Information eXpression)的基础上,也结合了实际业务需求,定义了适合本系统的规范标准,将收集的非结构化网络威胁情报数据转化为规范化的结构化数据。
结构化网络威胁情报数据向元数据的映射模块:
将获得的结构化网络威胁情报数据映射为网络威胁情报元数据的形式,具体映射方式以IP信誉信息进行说明。IP信誉信息为指定IP的黑白灰研判结果与关联信息。主要字段有恶意类型、检测时间、关联域名、关联样本等。在进行映射时,将与其它元数据有关联的字段映射为关系的形式,也即多级属性表示的形式,其它字段映射为一级属性表示的形式,图2为IP信誉信息的映射方式,其它结构化网络威胁情报信息的映射与此相同。
网络威胁情报元数据拆分模块:
将各个元数据进行拆分,拆分时以元数据的字段或属性为基本单位,将其充分拆分。IP元数据的拆分方式如图3所示(图3右侧的省略号表示在拆分后可以根据融合需要,添加一些其它的有助于融合的其它属性信息),即将IP元数据按照({“属性1”:“值1”,“属性2”:“值2”}拆分为:{“属性1”:“值1”},{“属性2”:“值2”}这种方式)进行拆分,其它元数据与IP元数据拆分方式相同。
网络威胁情报元数据融合模块:
结合每种元数据的特性,为不同类型的元数据选择不同的融合算法。在融合模块中,本发明中实现了7种融合算法。下面对各种融合算法的步骤进行详细说明。
(1)Majority voting(多数投票算法)
第一步,将每个数据源的信任分数初始化为w
第二步,计算元数据属性对应的值的信任分数;
其中,T
第三步,选取信任分数最大的属性值作为该属性的最准确值;
第四步,判断所有数据源中元数据属性是否融合结束,如果没有结束,回到第二步继续计算,直到所有数据源中各类元数据属性都融合结束为止。
该算法的执行流程图如图4所示。
(2)Sums(求和算法)
第一步,初始化每个属性值的信任分数为:
其中,B
第二步,计算每个数据源的信任分数:
其中,V
第三步,计算每个属性值的信任分数:
其中,S
第四步,是否达到迭代终止条件,如果没有达到迭代终止条件,返回第二步,继续计算;如果达到迭代终止条件,执行第五步;
第五步,对于每个属性,选取信任分数最大的属性值作为该属性的最准确值。该算法的执行流程图如图5所示。
(3)Average.Log(均值算法)
第一步,初始化每个属性值的信任分数为:
B
第二步,计算每个数据源的信任分数:
第三步,计算每个属性值的信任分数:
第四步,是否达到迭代终止条件,如果没有达到迭代终止条件,返回第二步,继续计算;如果达到迭代终止条件,执行第五步;
第五步,对于每个属性,选取信任分数最大的属性值作为该属性的最准确值。
该算法的执行流程图如图5所示。
(4)Investment(投资算法)
第一步,初始化每个属性值的信任分数为:
第二步,计算每个数据源的信任分数:
其中,r表示具有属性值v的某个数据源,V
第三步,计算每个属性值的信任分数时以一个非线性函数ρ(x)加权:
ρ(x)=x
第四步,是否达到迭代终止条件,如果没有达到迭代终止条件,返回第二步,继续计算;如果达到迭代终止条件,执行第五步;
第五步,对于每个属性,选取信任分数最大的属性值作为该属性的最准确值。
该算法的执行流程图如图5所示。
(5)PooledInvestment(联合投资算法)
第一步,初始化每个属性值的信任分数为:
第二步,计算每个数据源的信任分数:
第三步,计算每个属性值的信任分数:
ρ(x)=x
第四步,是否达到迭代终止条件,如果没有达到迭代终止条件,返回第二步,继续计算;如果达到迭代终止条件,执行第五步;
第五步,对于每个属性,选取信任分数最大的属性值作为该属性的最准确值。
该算法的执行流程图如图5所示。
(6)TruthFinder(真值发现算法)
第一步,初始化每个属性值的信任分数为:
第二步,计算每个数据源的信任分数:
第三步,计算每个属性值的信任分数:
第四步,是否达到迭代终止条件,如果没有达到迭代终止条件,返回第二步,继续计算;如果达到迭代终止条件,执行第五步;
第五步,对于每个属性,选取信任分数最大的属性值作为该属性的最准确值。
该算法的执行流程图如图5所示。
(7)Semi-Supervised Truth Discovery(半监督真值发现算法)
第一步,获取一些Ground Truth Data(正确的标注数据);
第二步,构建元数据属性值之间的连接图:
·不同数据源相同元数据且具有相同属性的值连接在一起,其连接权重为w
·相同数据源的属性值连接在一起,权重为w
第三步,初始化信任分数:
·初始化作为Ground Truth Data的元数据属性值的信任分数为c
·初始化其它属性值的信任分数为0。
第四步,计算元数据属性值的信任分数:
c
D
(1)W矩阵的计算
W=W
如果attr(m
如果
其中attr(m
通过分析可知W
c
其中,α是参数,且α∈(0,1)。
(2)D矩阵的计算
D=D
[D
|s
其中,α的含义同上。
第五步,恢复标记元数据的信任分数:
第六步,未标记数据信任分数执行衰减:
其中,
第七步,是否满足
第八步,对于每个属性,选取信任分数最大的属性值作为该属性的最准确值。
该算法的执行流程图如图6所示。
上述7种算法的选用:根据元数据类型特点选择合适的融合方法。对于随时间信息变化较大的元数据,比如对于域名元数据,它对时效性要求很高,因为对于域名的解析信息,它的变化是很快的,所以针对这类元数据要选择时效性较好的融合算法。对于知识类的元数据,比如组织的资产等,这些信息一般是不会很快改变的,因此对融合算法的时效性要求不是很高,可以根据实际的实验环境选择对应的算法。融合后输出结果的定制化配置模块:
用户可以根据实际的需求,从不同类型的元数据模板中选择不同字段输出。在配置后,系统会自动生成一个外部链接,供用户长期使用。以IP元数据为例,具体的系统输出模板配置方式如图7所示。其它元数据的输出模板配置方式与IP元数据类似。用户使用系统生成的外部链接查询方式如图8所示。
基于同一发明构思,本发明的另一实施例提供一种电子装置(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
基于同一发明构思,本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
以上公开的本发明的具体实施例,其目的在于帮助理解本发明的内容并据以实施,本领域的普通技术人员可以理解,在不脱离本发明的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例所公开的内容,本发明的保护范围以权利要求书界定的范围为准。
机译: 内容解剖网络中的内容分配方法包括使用容器作为逻辑盒来存储内容文件,并将文件系统元数据链接到这些容器,包括链接到人权委员会的元数据。这些容器的IBUCION内容包含这些属性或特定属性的属性分配元数据在CDN系统中使用。
机译: 建立UMTS先导单元数据库的方法,更新umts先导单元数据库的方法,使用umts先导单元数据库测量基于位置的网络的方法,服务器和系统
机译: 收集网络威胁情报数据及其系统的方法