首页> 中国专利> 一种基于攻击原理的网络攻击数据自动生成方法及系统

一种基于攻击原理的网络攻击数据自动生成方法及系统

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明提供一种基于攻击原理的网络攻击数据自动生成方法及系统，其中，所述方法包括：根据网络攻击公开信息建立攻击原理模型；其中，所述网络攻击公开信息包括：网络攻击分析代码数据及网络攻击公开报告；根据所述攻击原理模型建立基于攻击原理的数据生成系统；通过所述基于攻击原理的数据生成系统生成的数据，训练网络安全防御模型。本发明通过配置文件的编辑即可大批量、定制化生成逼真的、有效的目标数据，可以满足网络安全防御AI模型训练和测试阶段的数据需求，遵循本方法设计实现的生成系统，网络安全防御AI模型用户通过简单编辑配置文件，即可定制化生成大量目标攻击数据，用于模型训练和测试。

著录项

公开/公告号CN112261045A

专利类型发明专利
公开/公告日2021-01-22

原文格式PDF
申请/专利权人广州大学;
展开▼

申请/专利号CN202011136352.1
发明设计人冯林;崔翔;田志宏;孙彦斌;谭庆丰;
展开▼

申请日2020-10-22
分类号H04L29/06(20060101);G06N20/00(20190101);
代理机构44202 广州三环专利商标代理有限公司;
代理人陈旭红;吴落
地址 510006 广东省广州市番禺广州大学城外环西路230号
入库时间 2023-06-19 09:38:30

说明书

技术领域

本发明涉及网络安全技术领域，特别是涉及一种基于攻击原理的网络攻击数据自动生成方法及系统。

背景技术

近年来，迅猛发展的人工智能技术在各领域得到了广泛应用。同样的，人工智能技术助力网络安全防御，可以有效提升防御方势能。目前，已经存在部分应用了人工智能技术的网络安全类产品，其安全防御能力和行业竞争力得到了显著提升。众所周知，传统的机器学习、神经网络、深度学习等人工智能模型(AI模型)，不仅需要相关理论基础，也离不开数据集的支撑。值得注意的是，AI模型能在应用于解决实际问题时产生较大有益作用的前提是：拥有大量完备的可用数据集。然而网络安全领域的特殊性，使得这类模型的可用数据集紧缺的问题尤为突出。网络安全领域的特殊性，包括但不限于网络攻击事件发现滞后、攻击事件复杂、分析溯源困难等，使得现有网络攻击检测类的AI模型大多面临一个共同的挑战——拥有足量、完备的可用数据来支撑模型的训练和测试。

当前AI模型用户，使用较多的是公开可获得的真实攻击数据。这类数据大多来源于已追踪到的真实网络攻击，不仅公开可获得的数据稀少，还存在时效性滞后、完备度不足的问题。在应用研究方面，较多论文中的模型也采用了另一种替代解决方法：以企业内网、校园网络、合作IPS等特定网络的流量数据作为背景(白样本)，并在沙箱中运行少量恶意样本；或者直接使用部分红蓝对抗、CTF比赛数据，从而构造数据集。这种捕获重运行类的解决方案虽然可以使AI模型有数据集可用，但多数论文作者并不公开其研究工作所使用的数据集，因此这类数据集的可信度、真实性和可用性已经开始受到质疑，基于该类数据集训练得到的AI模型在生产环境下的实际性能也无从验证。

参考其他领域中解决数据集问题的思路，类似的研究主要有GAN方法生成和数据增强技术。利用GAN来自动化生成网络攻击数据，即设计生成器来学习输入的恶意样本数据特征，在此基础上进行泛化后得到更多数据；这种方式是立足于机器学习特征一级进行的，基于这些特征泛化特征参数值，此方法生成的数据受限于特征工程的处理。此外，数据增强在解决图片数据和文本数据问题方面已取得很好效果；但具体应用到网络攻击数据增强中，其增强保证性假设要求增强后的样本数据与原数据保持主要特征、分布特征的一致性，对应到网络攻击数据增强则表现为：增强后的样本数据仍然能达成原有攻击意图，以及仍然遵循基本的攻击原理；然而这是现有技术难以完成的。不仅如此，GAN网络生成方法和数据增强的方法均存在一个难题——难以验证所得到样本数据的有效性和一致性。

发明内容

本发明提供一种基于攻击原理的网络攻击数据自动生成方法及系统，该方法可以按AI模型用户需求，定制化生成大量逼真的、完备度可控可调的网络攻击数据，这些数据用于满足AI模型对训练和测试数据质与量的需求；最后，辅以真实、可获得的攻击数据作为训练所得模型的验证数据，从而解决当前AI模型训练过程中面临的可用数据紧缺、完备度不足的问题。

本发明一个实施例提供一种基于攻击原理的网络攻击数据自动生成方法，包括：

根据网络攻击公开信息建立攻击原理模型；其中，所述网络攻击公开信息包括：网络攻击分析代码数据及网络攻击公开报告；

根据所述攻击原理模型建立基于攻击原理的数据生成系统；

通过所述基于攻击原理的数据生成系统生成的数据，训练网络安全防御模型。

进一步地，所述训练网络安全防御模型之后，还包括：

根据获取到的真实攻击数据验证所述网络安全防御模型的性能。

进一步地，所述通过所述基于攻击原理的数据生成系统生成的数据，包括：

根据所述基于攻击原理的数据生成系统的配置规则生成用于满足训练网络安全防御模型要求的数据。

进一步地，所述根据网络攻击公开信息建立攻击原理模型之前，还包括：

根据预设周期获取网络攻击公开信息；其中，所述网络攻击公开信息包括：网络攻击分析代码数据及网络攻击公开报告。

本发明的实施例还提供一种基于攻击原理的网络攻击数据自动生成系统，包括：

攻击原理模型建立模块，用于根据网络攻击公开信息建立攻击原理模型；其中，所述网络攻击公开信息包括：网络攻击分析代码数据及网络攻击公开报告；

数据生成系统建立模块，用于根据所述攻击原理模型建立基于攻击原理的数据生成系统；

网络安全防御模型训练模块，用于通过所述基于攻击原理的数据生成系统生成的数据，训练网络安全防御模型。

进一步地，所述的一种基于攻击原理的网络攻击数据自动生成系统，还包括：

网络安全防御模型验证模块，用于根据获取到的真实攻击数据验证所述网络安全防御模型的性能。

进一步地，所述网络安全防御模型训练模块，还用于：

根据所述基于攻击原理的数据生成系统的配置规则生成用于满足训练网络安全防御模型要求的数据。

进一步地，所述的一种基于攻击原理的网络攻击数据自动生成系统，还包括：

网络攻击公开信息获取模块，用于根据预设周期获取网络攻击公开信息；其中，所述网络攻击公开信息包括：网络攻击分析代码数据及网络攻击公开报告。

本发明一实施例还提供一种电子装置，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现任意一项所述的基于攻击原理的网络攻击数据自动生成方法。

本发明一实施例还提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行任意一项所述的基于攻击原理的网络攻击数据自动生成方法。

与现有技术相比，本发明实施例的有益效果在于：

1.本发明方法提出了一种基于攻击原理的网络攻击数据自动生成方法，基于网络攻击原理设计并实现数据生成系统，生成的目标数据应用于网络安全防御AI模型的训练和测试，并辅以少量真实攻击数据进行模型验证。可解决当前人工智能技术助力网络安全防御过程中，面临的可用数据紧缺、完备度不足的瓶颈问题。

2.本发明方法提出一种基于攻击原理的网络攻击数据自动生成方法，使网络安全防御AI模型用户按需求简单编辑配置文件，即可定制化生成大量模型训练和测试所需数据；从而满足网络安全防御AI模型训练和测试阶段对大规模数据的需求，可解决因真实攻击数据获取难而导致的可用数据紧缺的问题。

3.本发明方法提出的一种基于攻击原理的网络攻击数据自动生成方法以攻击原理为理论基础进行设计与实现，即生成的目标数据符合基本攻击原理，从而保证生成数据的有效性和易于验证。且通过配置文件编辑可基本覆盖攻击原理中的各关键技术，使得生成的目标数据更具代表性，即生成目标数据得到质的提升。

4.本发明方法中提及的生成系统是高度可扩展的，即可通过持续跟进公开分析报告完善攻击原理，基于此扩展添加最新攻击案例研究成果到生成系统中，从而使生成的目标数据保持良好的时效性，尽可能的使生成数据可以覆盖迭代发展的新攻击技术。

5.使用本发明方法提及的一种基于攻击原理的网络攻击数据自动生成方法，其中的数据生成系统设计与开发工作可由专业安全研究人员完成，网络安全防御AI模型用户只需简单编辑配置文件，即可定制化、大批量生成目标数据。各研究领域的分工协作，可有效提升人工智能技术助力网络安全防御效果。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明某一实施例提供的一种基于攻击原理的网络攻击数据自动生成方法的流程图；

图2是本发明另一实施例提供的一种基于攻击原理的网络攻击数据自动生成方法的流程图；

图3是本发明另一实施例提供的一种基于攻击原理的网络攻击数据自动生成方法的流程图；

图4是本发明又一实施例提供的一种基于攻击原理的网络攻击数据自动生成方法的流程图；

图5是本发明某一实施例提供的一种基于攻击原理的网络攻击数据自动生成系统的装置图；

图6是本发明另一实施例提供的一种基于攻击原理的网络攻击数据自动生成系统的装置图；

图7是本发明又一实施例提供的一种基于攻击原理的网络攻击数据自动生成系统的装置图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，文中所使用的步骤编号仅是为了方便描述，不对作为对步骤执行先后顺序的限定。

应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

为应对网络安全防御AI模型训练过程中正面临的数据集问题，现有的几种主要解决方法并没能较好解决。由于网络安全领域的特殊性，真实攻击数据往往难以获取，导致公开可获得的真实公开数据本身是稀少的；尽管国内外众多网络安全专家、团队正致力于攻击发现、溯源分析，但他们大多只共享了内容详实的案例分析报告，并未将相关攻击数据进行处理后公开，即这类宝贵的分析数据资源不能被其他网络安全防御AI模型用户用作模型训练和测试的数据集。对于网络安全防御AI模型用户而言，现有公开可获得真实攻击数据很少，难以支撑网络安全防御AI模型训练和测试的较好完成。除此之外，已公开数据集还存在一些局限性问题。首先这类真实攻击数据往往只是同类攻击中极小部分样本的攻击数据，使得这类数据集代表性不足。其次，由于网络攻击发现滞后、完整的分析溯源困难等，很可能难以获取到全部攻击过程的所有攻击数据，即已获取到的这些数据极有可能是片面的、不完整的。再次，这类数据时间滞后的问题突出，虽然公开数据集是真实攻击数据，但是它们的公开、更新时间滞后2～3年甚至更久，这意味着获得的数据中所使用的技术无法跟上攻防技术的更新迭代；如果网络安全防御AI模型用户仍使用这些陈旧的数据进行训练，那么所得模型在生产环境中则难以应对最新的网络攻击。最后，网络安全技术的伴生特性使得细分网络安全方向众多，当用户希望针对某一细分领域实践网络安全防御AI模型时，当前较多细分领域尚无公开的针对性数据集可用。

对于学术论文中广泛使用的捕获重运行类数据而言，恶意样本的多样性直接决定了数据的质与量，且在重运行恶意样本时将面临样本失活和运行环境苛刻等问题，捕获失活样本的运行数据已失去原有价值。对于网络安全防御AI模型用户而言，捕获较为完备的目标类型攻击样本需要极高的攻防对抗基础，重运行此类样本并捕获有效数据需要更高的网络安全素养；而且，在“假定失陷”的大环境下，由于缺乏网络攻击原理的指导，这类构造数据的可靠性、完备度、说服力普遍较低。

对于GAN方法和数据增强技术应用于网络攻击数据增强时，面临的首要难题是所得数据的有效性验证。GAN方法主要通过设计的生成器(Generator)完成数据生成，即基于GAN的数据集生成方法所得到的数据将受限于特征提取的完整度；同时，生成数据的验证又依赖判别器(Discriminator)的设计，然而当前针对计算机二进制数据的自动化验证和功能评估的技术尚待突破，因此当前GAN网络大多用于以“欺骗”判别器为目的的对抗样本生成，而难以应用于解决当前的数据集紧缺、完备度不足的问题。同样的，数据增强在处理文本数据和图片数据中的效果是显而易见的。以图片数据增强为例，一张“猫”的图片通过简单的旋转、缩放即可得到多张“猫”的图片，同时完成了标签化工作和有效性验证。然而在应用到网络攻击数据增强时，二进制数据的微小修改将导致数据所表示功能的巨大改变，那么验证增强后的数据仍遵循基本攻击原理、能达成原有攻击意图，是现有技术无法做到的。

综合来看，面对网络安全防御AI模型用户面临的数据集问题，现有解决方法具有明显的不足，真实攻击数据受限于网络攻击事件的及时发现、全面捕获、完整分析等，致使其数据存在时效性滞后、完备度不足等问题；用户自行捕获恶意样本构建重运行类数据时，则对其安全攻防素养提出了极高要求，且这类数据的完备性和可信度易受到质疑。GAN方法生成的数据则较大程度上受限于生成器的特征工程的完备度，且设计一个能自动化验证二进制数据的有效性的判别器是当前技术难以做到的。同样的，应用数据增强方法也面临，增强后网络攻击数据的有效性验证困难的问题。

基于此，本发明旨在提出一种基于攻击原理的网络攻击数据自动生成方法，该方法可以按网络安全防御AI模型用户需求，定制化生成大量逼真的、完备度可控可调的网络攻击数据，这些数据用于满足网络安全防御AI模型对训练和测试数据质与量的需求；最后，辅以真实、可获得的攻击数据作为训练所得模型的验证数据，从而解决当前网络安全防御AI模型训练过程中面临的可用数据紧缺、完备度不足的问题。

第一方面。

请参阅图1-3，本发明一个实施例提供一种基于攻击原理的网络攻击数据自动生成方法，包括：

S10、根据网络攻击公开信息建立攻击原理模型；其中，所述网络攻击公开信息包括：网络攻击分析代码数据及网络攻击公开报告。

近年来，网络安全逐渐得到了国内外机构、企业、公众的重视，在国内外安全厂商、网络安全社区、白帽组织等的共同努力下，对网络攻击事件展开的追踪、分析、溯源逐渐深入；与此同时，分析、曝光网络攻击、恶意组织的攻击细节、攻击技术的公开报告已形成一定规模，基本展现了其分析、追踪的恶意网络攻击中的攻击原理、攻击策略等。这些高价值的公开报告应当成为网络安全防御从业人员的高价值资料，我们将使用这些材料帮助分析、梳理攻击机理，然后建立攻击模型；在此基础上，持续跟进同类公开报告来修正自身的攻击原理、知识体系，最终形成同类攻击的专家知识体系。

国内外开源社区、开源平台作为技术分享、交流的重要平台，网络安全验证型、快速搭建测试型开源项目在各平台上已广泛存在。这类项目已部分实现了网络攻击的基本过程，可模拟、复现部分网络攻击。这类开源项目可以作为我们系统的实现基础，在此基础上参考网络攻击原理进行完备性修改、优化以及持续补充更新，通过动态参数配置则可以形成相关的变种集，实现攻击数据的批量生成。

S20、根据所述攻击原理模型建立基于攻击原理的数据生成系统。

在某一具体实施例中，所述S20、根据所述攻击原理模型建立基于攻击原理的数据生成系统，还包括：

S21、根据所述基于攻击原理的数据生成系统的配置规则生成用于满足训练网络安全防御模型要求的数据。

通过公开分析报告梳理进行技术积累，参考开源工具，设计并实现定制化生成系统。该系统通过定制化配置文件实现高度可扩展，AI模型用户只需要按照自身需求编辑配置文件，即可定制化生成大量逼真的、完备度可控可调的目标数据。这些生成数据的有效性可以通过系统运行结果直接验证。与此同时，持续跟进公开分析报告、分析总结最新攻击技术，并更新到已有攻击模型中去，指导生成系统拓展实现最新攻击技术点，从而保证生成数据的完备度和时效性。

S30、通过所述基于攻击原理的数据生成系统生成的数据，训练网络安全防御模型。

在某一具体实施例中，所述S30、通过所述基于攻击原理的数据生成系统生成的数据，训练网络安全防御模型之后，还包括：

S40、根据获取到的真实攻击数据验证所述网络安全防御模型的性能。

在某一具体实施例中，所述S10、根据网络攻击公开信息建立攻击原理模型之前，还包括：

S01、根据预设周期获取网络攻击公开信息；其中，所述网络攻击公开信息包括：网络攻击分析代码数据及网络攻击公开报告。

通过公开报告跟进、梳理分析，从原理上发现网络攻击的本质；从而总结目标类型网络攻击的基本原理，甚至可以抽象出该类网络攻击模型，从而指导生成系统的实现、扩展和优化。与此同时，更新的公开报告跟进、技术研究积淀可以持续完善攻击原理，指导修改、补充已有网络攻击模型，从而保证专家知识体系的完备性和时效性。

AI模型训练和测试阶段正面临可用数据集紧缺、完备性不足的问题，这一问题直接影响了其助力网络安全防御的实际性能和效果。通过本发明方法提出的数据生成及应用方案，可产生以下有益效果：

本发明方法提出的方案，可以满足AI模型训练和测试阶段对大量数据的需求。遵循本方法设计实现的生成系统，AI模型用户通过简单编辑配置文件，即可定制化生成大量目标攻击数据，用于模型训练和测试。

通过本发明方法，用户通过配置文件的编辑即可定制化生成逼真的、有效的目标数据。这是因为本方法中的生成系统的设计实现以攻击原理作为理论支撑，所以生成数据都是符合基本攻击原理的，且攻击目的验证简单。

本发明方法提及的生成系统是高度可扩展的，则生成数据是完备度可控可调的，且一定程度上保证了生成数据的时效性。得益于系统的高度可扩展性，参考公开报告、开源工具等材料的持续跟进，可以针对性扩展添加最新攻击技术到生成系统中，最新攻击技术包括但不限于安全分析中已有的攻击技术、研究人员预测可行的攻击数据等。通过上述持续补充、动态泛化，也一定程度上保证生成数据紧跟攻击技术的迭代发展。

在某一具体实施例中，请参阅图4，为应对AI模型训练和测试阶段面临的可用数据集紧缺、完备度不足的问题，本发明首次提出一种基于攻击原理的网络攻击数据自动生成方法，该方法的主要组成部分及在应用到AI模型训练和测试过程中的作用点如图1所示。

本发明方法提供完整的数据生成及其应用方案。

首先，参考包括但不限于真实网络攻击分析溯源、公开分析报告、专家知识等，进行攻击原理积累和攻击建模，从而在具备高扩展性的生成系统中尽可能全面的复现目标技术点；然后，使用基于攻击原理的生成系统定制化生成大量逼真的、完备度可控可调的攻击数据，具备有效性和完备性保证的生成数据可用作目标AI模型的训练和测试；接下来，使用少量真实攻击数据对训练所得模型进行性能验证，并持续反馈和指导攻击原理/模型修正、生成系统的完善。最后，在达到预期性能指标后，即可部署目标模型应用于真实网络攻击检测环境下。

第二方面。

请参阅图5-7，本发明一实施例还提供一种基于攻击原理的网络攻击数据自动生成系统，包括：

攻击原理模型建立模块10，用于根据网络攻击公开信息建立攻击原理模型；其中，所述网络攻击公开信息包括：网络攻击分析代码数据及网络攻击公开报告。

数据生成系统建立模块20，用于根据所述攻击原理模型建立基于攻击原理的数据生成系统。

网络安全防御模型训练模块30，用于通过所述基于攻击原理的数据生成系统生成的数据，训练网络安全防御模型。

在某一具体实施方式中，所述网络安全防御模型训练模块30，还用于：

根据所述基于攻击原理的数据生成系统的配置规则生成用于满足训练网络安全防御模型要求的数据。

在某一具体实施方式中，还包括：

网络安全防御模型验证模块40，用于根据获取到的真实攻击数据验证所述网络安全防御模型的性能。

在某一具体实施方式中，还包括：

网络攻击公开信息获取模块50，用于根据预设周期获取网络攻击公开信息；其中，所述网络攻击公开信息包括：网络攻击分析代码数据及网络攻击公开报告。

第三方面。

本发明一个实施例提供一种电子装置，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现上述任意一项所述的基于攻击原理的网络攻击数据自动生成方法。

第四方面。

本发明一个实施例提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的基于攻击原理的网络攻击数据自动生成方法。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于攻击原理的网络攻击数据自动生成方法及系统 [P] . 中国专利： CN112261045A . 2021-01-22
2. 一种基于数据分析的网络攻击溯源方法及系统 [P] . 中国专利： CN111669370A . 2020-09-15
3. Cyber attack response training system, cyber attack response training system execution method, cyber attack response training system program, and recording medium [P] . JP6889882B2 . 2021-06-18

机译：网络攻击响应培训系统，网络攻击响应培训系统执行方法，网络攻击响应培训系统计划，以及记录介质
4. CYBER ATTACK CORRESPONDING TRAINING SYSTEM, EXECUTION METHOD OF CYBER ATTACK CORRESPONDING TRAINING SYSTEM, PROGRAM FOR CYBER ATTACK CORRESPONDING TRAINING SYSTEM AND RECORDING MEDIUM [P] . 日本专利： JP2019023824A . 2019-02-14

机译：网络攻击对应训练系统，网络攻击对应训练系统的执行方法，网络攻击对应训练系统和记录介质的程序
5. NETWORK ATTACK DETECTION DEVICE, NETWORK ATTACK DETECTION METHOD, AND NETWORK ATTACK DETECTION SYSTEM [P] . 韩国专利： KR20180085157A . 2018-07-26

机译：网络攻击检测装置，网络攻击检测方法及网络攻击检测系统