首页> 中国专利> 一种网络安全防御策略优化方法、设备及介质

一种网络安全防御策略优化方法、设备及介质

摘要

本发明公开了一种网络安全防御策略优化方法、设备及介质,属于网络安全领域,包括步骤:S1,初始化安全防御策略集;S2,进行端点侧设备本地状态数据采集分析;S3,初始化全局安全状态数据集;S4,构建管理中心侧全局奖励函数;S5,寻找全局最优策略。本发明使得网络信息系统的安全防御策略能根据当前网络安全状态进行动态及时调整,主动和动态开展防御,增强了扩展性和适应性。

著录项

  • 公开/公告号CN114844715A

    专利类型发明专利

  • 公开/公告日2022-08-02

    原文格式PDF

  • 申请/专利号CN202210572889.5

  • 发明设计人 陈捷;张锋军;石凯;

    申请日2022-05-25

  • 分类号H04L9/40(2022.01);G06F17/15(2006.01);G06F17/16(2006.01);

  • 代理机构成都九鼎天元知识产权代理有限公司 51214;

  • 代理人周浩杰

  • 地址 610000 四川省成都市高新区创业路6号

  • 入库时间 2023-06-19 16:14:25

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-05-16

    授权

    发明专利权授予

  • 2022-08-19

    实质审查的生效 IPC(主分类):H04L 9/40 专利申请号:2022105728895 申请日:20220525

    实质审查的生效

说明书

技术领域

本发明涉及网络安全领域,更为具体的,涉及一种网络安全防御策略优化方法、设备及介质。

背景技术

网络信息系统面临严峻安全威胁,现有的基于静态防御策略的安全防护已不能应对复杂多变、动态变化的各种攻击手段,静态固化的防御策略不能针对不同的攻击手段和攻击来源进行针对性的防御策略调整,造成防御低效或者失效。已有的基于机器学习的防御手段,依赖于中心化决策,实时性和联动性不足,不能满足实时动态防御需求。

在现有技术研究成果中,策略决策依赖已有静态规则或专家知识,方法过于固化和主观,不能高效、灵活适应动态变化的网络攻击手段。采用集中式决策机制,对于端设备要依赖中心分析决策,不能及时响应调整策略。

发明内容

本发明的目的在于克服现有技术的不足,提供一种网络安全防御策略优化方法、设备及介质,使得网络信息系统的安全防御策略能根据当前网络安全状态进行动态及时调整,主动和动态开展防御,增强了扩展性和适应性。

本发明的目的是通过以下方案实现的:

一种网络安全防御策略优化方法,其特征在于,包括步骤:基于强化学习在安全防御系统的管理中心侧和设备端点侧动态协同优化调整安全防御策略。

进一步地,包括子步骤:

S1,初始化安全防御策略集:将防御策略设置为防御策略集S,所述策略集包括针对该网络环境下各类安全威胁的可行防御策略;

S2,进行端点侧设备本地状态数据采集分析:将端点设备本地采集到的各类数据进行分析,对本地能够判定的攻击和漏洞进行本地防御响应策略决策和策略实施,并反馈相关信息给安全管理中心;

S3,初始化全局安全状态数据集:在管理中心侧将各个安全端设备安全状态数据汇聚构造成安全状态矩阵τ;使用奖励函数概念,状态变化奖励函数γ

S4,构建管理中心侧全局奖励函数:在中心侧安全管理系统构建全局奖励函数为防御者在当前时间t

S5,寻找全局最优策略:考虑防御策略的所有组合,通过奖励函数计算来进行策略优化,使得最优策略的全局累加奖励反馈值最大,从而确定最佳防御策略。

进一步地,步骤S3中,全局安全状态矩阵τ表示为:

其中,m是采取安全防护策略的数量,n是网络信息系统中检测到的攻击和漏洞数量,奖励函数γ

γ

1≤i≤n

1≤j≤m

其中,s={s

进一步地,每种防御策略对于一个或多个攻击动作可能是完全有效的或部分有效的,甚至是无效的,并且能够被描述为如下矩阵:

在这个矩阵中,如果元素e

进一步地,步骤S3中,若防御者的策略为s={s

进一步地,步骤S4中,先使用极大函数将公式化后攻击者和防御者的行为进行优化求解,从防御者的角度来看,力求最大化防御效果和回报,即:

R

进一步地,将最优混合策略表示为:

再将上式转化为线性规划,将模型转化为两组线性规划,寻找最优混合策略,计算公式如下:

最后考虑防御策略的所有组合,通过比较每个组合的最优混合策略的全局累积奖励值,求取最大奖励值对应的策略集合,从而确定最佳防御策略。

进一步地,防御策略的组合总数为2

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上任一所述网络安全防御策略优化方法的步骤。

一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时实现如上任一所述网络安全防御策略优化方法的步骤。

本发明的有益效果包括:

(1)本发明的方案,提出一种两级协同策略优化机制和一种新的奖励函数计算方式,在基于强化学习模型的基础上引入两级协同反馈机制的方法,结合安全属性状态的方式,形成一种防御策略智能动态优化方法,该方法将本地防御和全局防御机制相结合,实时联动,使得网络信息系统的安全防御策略能根据当前网络安全状态进行动态及时调整,主动和动态开展防御。

(2)本发明可进行定制化设计,奖励函数的关键组成元素的数量和数值可以根据实际情况进行灵活制定,因此扩展性和适应性强。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例方法步骤流程图。

具体实施方式

下面结合附图和实施例对发明进一步说明。本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。

在寻求解决背景中问题的过程中,本发明发现如下技术问题:网络安全防御策略优化是一种主动的防御技术,其基本目的是通过分析当前网络系统安全整体状态,动态主动调整防御策略,将网络风险和安全威胁控制在可接受的范围之内,对安全事件和威胁进行及时有效的控制和消解。通过对系统安全状态信息的采集和分析,获取系统所处的安全状态,基于当前安全状态和前一时刻安全防御策略执行效果的奖励函数反馈值,进行基于强化学习框架的计算分析,及时动态生成当前防御策略集,为安全管理员要采取的安全措施提供策略优化决策建议。

为了克服现有静态策略防御技术的缺点,本发明实施例提出基于强化学习的两级网络安全防御策略优化方法及装置,旨在提供解决如下技术问题的技术方案:

(1)网络面临的安全威胁是动态变化的,传统以专家知识和静态策略为主的防御机制,难以适应动态变化的安全威胁,防御效能较为低效。本发明实施例建立基于强化学习的网络安全策略优化决策模型,针对网络信息系统的安全状态变化进行持续的分析评估,结合当前环境中安全策略执行的反馈,进行策略优化选择,利用强化学习机制,针对安全状态和上一策略组合执行中对环境产生的影响反馈,动态调整优化得出最佳防御策略,针对动态变化的攻击展开针对性的防护,解决静态策略难以适应动态变化的安全威胁的问题。

(2)针对防御策略集中优化调整效率低,难以协同防御的问题,提出两级优化协同的方法和机制。通过在安全设备端点侧进行本地基于规则和专家库知识对已知威胁进行及时处理,可以针对本地发现的安全威胁及时生成实时策略,开展及时高效的本地防御;在安全管理中心侧通过汇聚采集各个设备端的安全信息和防御策略,对全局防御策略进行分析决策,对本地系统不易发现和处理的未知攻击和分布式大型网络攻击进行分析和策略决策,形成全局策略下发各端点协同执行,形成协同联动防御的能力。

实施例中,提供一种网络安全防御策略优化方法。以该发明方法为例,详述初始化安全防御策略集、端点侧设备本地状态数据采集分析、初始化全局安全状态数据集、构建管理中心侧全局奖励函数、寻找全局最优策略等。如图1所示,基于强化学习的两级协同网络安全防御策略优化方法,包括以下步骤:

S1.初始化安全防御策略集

本实施例考虑将网络安全防御系统分为端点侧和中心侧两方,端点侧主要指各类网络安全设备或软件,中心侧指对各类安全设备进行集中管理配置的安全管理系统。端点侧设备主要负责对本设备防护范围内的各类安全状态信息和本主机的安全策略进行处理和管控,实现本地已知威胁和漏洞的实时防御响应和策略调整。中心侧对全网的整体安全状态和全局安全策略进行分析和管控,对各安全端点设备采集的各类安全状态信息进行汇聚和集中分析,针对未知攻击和大规模分布式攻击等本地设备无法识别和处理的威胁进行分析和策略优化,形成两级协同联动的防御能力。

这里将防御策略设置为防御策略集s={s

S2.进行端点侧设备本地状态数据采集分析

将端点设备本地采集到的各类数据进行分析,对本地能够判定的攻击和漏洞进行本地防御响应策略决策和策略实施,并反馈相关信息给中心侧安全系统;

S3.初始化全局安全状态数据集

将采集到的各个安全防护端设备采集的安全状态数据构造成安全状态矩阵τ,其中每个状态变化奖励函数γ

在具体实施方式中,全局安全状态矩阵τ表示为:

其中,m是可采取安全防护策略的数量,n是网络信息系统中的检测到的攻击和漏洞数量,状态变化奖励函数γ

γ

其中,s={s

y

u

S4.构建中心侧全局奖励函数

在中心侧安全系统构建全局奖励函数R为防御者在当前时间t

每种防御策略对于一个或多个攻击动作可能是完全有效的或部分有效的,甚至是无效的,并且能够被描述为如下矩阵:

在这个矩阵中,如果元素e

在具体实施方式中,步骤S3中,若防御者的策略为s={s

S5.寻找全局最优策略

考虑防御策略的所有组合,通过奖励函数计算来进行策略优化,使得最优策略的全局损失最小,从而确定最佳防御策略。

先使用极大函数将公式化后攻击者和防御者的行为进行优化求解,从防御者的角度来看,力求最大化防御效果和回报,即:

R

再将上式转化为线性规划,将模型转化为两组线性规划,寻找最优混合策略,计算公式如下:

最后考虑防御策略的所有组合,通过比较每个组合的最优混合策略的全局奖励函数累加值,求出最大奖励值,从而确定最佳防御策略。

在具体实施方式中,防御策略集的可以根据不同安全需求和不同特点的网络信息系统进行定制。

总的来说,安全状态收敛快并且全局奖励函数值越大越好,但找到最佳策略非常依赖于公司或者组织结构关于最佳策略的政策,根据企业的需求有侧重的选择最优策略集。例如,对于一家大型成熟的企业来说,可能需要的是最小损失(最大的全局奖励)的策略;而对于中小型公司来说,可能维护成本是关键因素。

本发明实施例提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行该计算机程序时实现实施例1的网络安全防御策略优化方法的步骤。其中,计算机程序可以为源代码形式、对象代码形式、可执行文件或者某些中间件形式等。

本发明实施例提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现实施例1的网络安全防御策略优化方法的步骤。其中,计算机程序可以为源代码形式、对象代码形式、可执行文件或者某些中间形式等。存储介质包括:能够携带计算机程序代码的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM)、随机存取存储器(RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,存储介质不包括电载波信号和电信信号。

除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号