法律状态公告日
法律状态信息
法律状态
2022-08-16
实质审查的生效 IPC(主分类):G06N 5/04 专利申请号:2021101250004 申请日:20210129
实质审查的生效
技术领域
本发明涉及一种基于本体论与D-S证据理论的网络安全数据融合方法,属于网络安全、数据融合技术领域。
背景技术
网络安全领域采集到的多源异构数据来自于不同的网络流量采集设备或安全监测设备,设备和系统之间以及数据类型本身之间的差异,不仅导致数据的模型异构,而且数据的语义、语法等也存在不同程度的异构。由于网络安全领域的多源异构数据反映了信息源或者是监测目标的多方面特征,对其进行有效地知识融合操作,才能从整体上观测网络空间的安全状态。
随着各种数据融合技术和方法的不断发展,数据融合的框架也已经越来越完善。但是,数据结构上的差异问题和语义上的歧义问题一直没有得到良好地解决。基于本体的数据集成方法对以上两种问题提供了有效的解决思路。本体理论对领域内的概念和概念之间的关系具有较好的、严格的约束规范和层次描述,同时还支持知识推理机制,可以有效地对数据的结构差异和语义歧义进行清晰地区分与表达,从而解决以上问题。
数据融合技术是一种先进的技术,可以实现对各种数据的检测、分析以及整合工作,并得出系统的安全态势评估结果。数据融合可分为三个层次,分别是数据层、特征层以及决策层。各层次所采取的融合算法有所不同,但也有所交叉。Dempster-Shafer(D-S)证据理论是一种重要的不确定性推理方法,该证据理论是对经典概率论的推广,具有坚实的数学基础,能够清楚地表示“不知道”和“不确定”的数据信息,在精确刻画证据聚合程度方面具有很强的灵活性,并能得到较好的融合结果,已成为信息融合、模式识别和决策分析等领域重要的信息处理工具。其不足之处,是基于事件的独立性假设存在焦元爆炸问题,无法有效处理高冲突数据。
发明内容
本发明的目的是提出一种基于本体论与D-S证据理论的网络安全数据融合方法,基于本体理论、领域本体知识库对多源异构网络安全数据进行本体建模,构建网络安全知识图谱,并使用D-S证据理论实现了数据推理融合,该方法能够解决网络安全领域多源异构数据知识融合的问题。
为实现上述目的,本发明采用以下技术方案:
一种基于本体论与D-S证据理论的网络安全数据融合方法,包含以下步骤:
采集多源异构网络安全数据并进行预处理,使多源异构网络安全数据唯一、合法与完整;
预先构建多层的网络安全知识本体模型,包含全局领域本体和局部本体,以及各本体间的关系;
根据预先构建的网络安全知识本体模型,将预处理后的多源异构网络安全数据进行本体及本体间关系抽取,构建网络安全知识图谱;
基于构建的网络安全知识图谱,利用D-S证据理论进行知识融合,步骤包括:
基于网络安全知识图谱确定命题规则集,构建D-S证据理论中的网络安全知识融合框架;
在网络安全知识融合框架中,基于网络安全知识图谱为每一个命题分配证据,并获取其基本概率分配函数;
利用D-S证据理论中的信度函数和似然函数,得到网络安全知识融合框架中的每个命题的信任度;
使用D-S证据理论合成法则对每个命题的信任度进行合成,根据合成后的结果决策出证据数据属于哪一种命题,补全网络安全知识图谱,完成多源异构网络安全数据的融合。
进一步地,多源异构网络安全数据包括日志数据、检测数据、上报事件数据、网络空间资产数据;其采集来源包括设备运行日志、安全告警日志、异常检测数据、厂商上报事件数据;其数据格式包括结构化数据、半结构化数据、非结构化数据。
进一步地,预处理方法为:根据数据特征定义规则,对数据进行清洗和补全,包括去除重复记录、使用IP地址补全被攻击或攻击源的地址。
进一步地,构建网络安全知识本体模型的步骤包括:
1)依据网络安全领域的标准规范,确定网络安全领域的本体、概念和术语,以及确定本体对应的属性集合;
2)建立层次化的网络安全知识概念结构,确定全局领域本体与局部本体,以及各个本体间的关系;
3)根据步骤1)和2)确定的结果,构建网络安全知识本体模型。
进一步地,本体间的关系包括关联、利用、使用、包含、因果以及子类关系;使用Protege本体建模工具构建网络安全知识本体模型。
进一步地,本体及本体间的关系抽取步骤包括:
1)对于预处理后的多源异构网络安全数据,其中结构化的目标数据在数据集中的表名和字段名均带有高层语义信息,将该高层语义信息与网络安全知识本体模型中的本体和属性相对应;
2)对于非结构化数据,利用网络安全知识本体模型进行实体识别;
3)对所述实体的本体和各本体间关系进行抽取。
进一步地,采用Stanford NLP训练网络安全知识本体模型进行实体识别,采用Bootstrapping算法进行本体和各本体间关系抽取。
进一步地,构建网络安全知识图谱的步骤包括:
根据抽取的本体间关系,得到统一规范的结构化数据,形成网络安全知识的结构化表达;
将结构化的网络安全知识数据转换为RDF类型的三元组数据,构建网络安全知识图谱。
本发明针对网络安全数据多源异构的特点,结合已有的网络安全领域标准规范,基于本体理论技术构建多层的网络安全知识本体,保证多源异构数据之间的知识的共享与重用,同时,通过D-S证据理论方法实现知识推理,解决单纯本体推理存在的规则冲突问题,有效处理模糊和不确定性问题,保证了数据融合中既能形成有效的规则组合,又能缩小规则之间的冲突,为网络安全领域的多源异构数据融合提供一种有效方法。
附图说明
图1是本发明的一种基于本体论与D-S证据理论的网络安全数据融合方法流程图。
具体实施方式
为使本发明的技术方案能更明显易懂,特举实施例并结合附图详细说明如下。
步骤1:多源异构网络安全数据采集
本发明方法建立在采集的网络安全数据,主要来源于设备运行日志、安全告警日志、异常检测数据、厂商上报事件数据等;主要内容包括日志数据、检测数据、上报事件数据、网络空间资产数据等。在数据格式上,同时包含结构化数据、半结构化数据、非结构化数据。因此网络安全数据具有多源异构、碎片化的特点。
步骤2:多源异构网络安全数据预处理
在分析多源异构网络安全数据内容的基础上,根据数据特征定义具体规则,编写数据预处理插件,对数据进行清洗和补全,包括去除重复记录、使用IP地址补全被攻击或攻击源的地址等,从而保证多源异构网络安全数据的唯一性、合法性,与完整性。
步骤3:构建多层的网络安全知识本体模型,包含全局领域本体和局部本体。
首先,在构建多层的网络安全知识本体模型中,本实施例依据了相关的网络安全领域相关标准规范,如ISO/IEC 27000信息安全管理体系标准族、网络安全威胁信息格式规范GB/T36643-2018、信息安全技术术语GB/T25069-2019、信息安全技术网络攻击定义及描述规范GB/T37027-2018、以及部分公共安全行业标准等,从而确定网络安全领域核心本体、概念和术语,建立网络安全知识本体模型,并明确属性集合。例如:
(1)网络资产:包括网络空间中的各种硬件设备、软件设备、网络环境、虚拟人员等。
(2)脆弱性:包括漏洞脆弱性、弱点脆弱性,如漏洞、系统配置、防护软件等。
(3)网络攻击:包括攻击者、攻击方式、利用工具、攻击事件、攻击后果等。其中攻击者包括个人、团体或黑客组织;攻击方式包括攻击使用的手段,如拒绝服务攻击、后门攻击、漏洞攻击、网络扫描窃听、网络钓鱼、干扰事件、高级威胁事件、其他网络攻击事件;利用工具包括正常软件和恶意软件。
其次,建立层次化的网络安全知识概念结构,确定全局领域本体与局部本体以及本体间的关系;根据上一步所构建的本体模型,确定本体之间“关联”“利用”“使用”“包含”“因果”“子类”关系。如攻击方式与漏洞之间为“利用”关系,攻击者与工具之间为“使用”关系、黑客组织与攻击者是“子类”关系等。
最后,在前两步的基础上,使用Protege本体建模工具构建网络安全知识本体模型。
步骤4:多源异构网络安全数据的本体抽取与知识图谱构建
首先,经步骤2数据预处理后,结构化的目标数据在数据集中的表名和字段名均带有高层语义信息,将其与步骤3建立的本体模型中的本体和属性相对应;
其次,对于安全事件内容、漏洞描述等非结构化数据,本实施例采用Stanford NLP训练网络安全知识本体模型进行实体识别;
再次,采用Bootstrapping算法对实体的本体和各本体间关系进行抽取,得到统一规范的结构化数据,形成整个网络安全知识的结构化表达;
最后,将结构化的网络安全知识数据转换为RDF类型的三元组数据,形成基本的网络安全知识图谱。
步骤5:基于多源异构网络安全知识图谱与D-S证据理论的知识融合
首先,基于初步构建的包含网络资产、脆弱性、网络攻击顶层本体以及其下多层本体的网络安全本体模型,确定命题规则集,构建D-S证据理论中的网络安全知识融合框架;
其次,在网络安全知识融合框架中,基于所构建的网络安全知识图谱为每一个命题分配证据,并获取它的基本概率分配函数;
再次,将D-S证据理论中的信度函数和似然函数结合得出网络安全知识融合框架中的每个命题的信任度;
最后,使用D-S证据理论合成法则对每个命题的信任度进行合成,根据合成后的结果决策出证据数据属于哪一种命题,补全网络安全知识图谱,完成多源异构网络安全数据的推理融合。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,本发明的保护范围以权利要求所述为准。
机译: 一种基于并行数据传输的ISDN交换机融合数据存储装置及其控制方法
机译: 基于计算机的用于处理地下矿井中的多次潜水的方法,存在的介质,基于计算机的用于基于矿井中的矿物处理井底数据的方法的方法一个基于计算机的地下信息系统。根据地下矿井中的矿物来处理数据,并基于计算机对地下矿井中的数据进行处理的方法,仓储腿目前的计算机系统是基于计算机的,用于处理基于地下的一种形式的多次潜水。计算机根据地下矿井中的矿物质来处理数据u00e7o地下,以及基于计算机的数据处理方法
机译: 记录了一种基于数据库的数据关联方法和一种基于数据库的数据关联系统以及基于数据库的数据关联方法,并且计算机可读记录介质包括计算机可读记录介质。