首页> 中国专利> 一种基于行为特征编码的半监督网络异常行为检测方法

一种基于行为特征编码的半监督网络异常行为检测方法

摘要

本发明提供了一种基于行为特征编码的半监督网络异常行为检测方法,属于网络安全技术领域。本发明通过无标签网络行为样本对特征编码网络进行预训练,获得基于流型空间的三种特征表示;预训练学习到的特征编码表示有效表达了正常样本的先验分布特征,能够使网络异常行为在基于流行空间的特征表达上与正常行为具有显著差异。然后利用无标签网络行为数据样本和有标签的网络异常行为数据样本对整个网络(由特征编码网络和异常打分网络组成的网络)进行端到端的训练,以联合优化特征编码网络的重建误差和整个网络的异常打分。联合优化后,网络正常行为与异常行为能够得到有效区分,从而帮助系统获得优异的网络异常行为检测性能。

著录项

  • 公开/公告号CN113032778A

    专利类型发明专利

  • 公开/公告日2021-06-25

    原文格式PDF

  • 申请/专利权人 四川大学;

    申请/专利号CN202110228338.2

  • 申请日2021-03-02

  • 分类号G06F21/55(20130101);G06K9/62(20060101);

  • 代理机构51229 成都正华专利代理事务所(普通合伙);

  • 代理人李蕊

  • 地址 610041 四川省成都市武侯区一环路南一段24号

  • 入库时间 2023-06-19 11:35:49

说明书

技术领域

本发明属于网络安全技术领域,尤其涉及一种基于行为特征编码的半监督网络异常行为检测方法。

背景技术

网络异常行为检测是网络安全领域的重要研究内容。企业管理系统、银行支付系统、物联网工控系统等应用场景中常常存在网络异常行为,可能对网络系统的安全性和稳定性造成威胁。网络异常行为主要是网络攻击(例如拒绝服务攻击、端口扫描等)导致的。在对网络异常行为进行异常检测时,可以根据其连接属性、内容特征、流量统计特征等进行分析得到相关特征属性描述。由于网络异常行为与正常行为的产生原因和行为特征不同,因此往往与正常行为表现出一定的偏差。由于网络异常行为往往是难以预测的,且实际的网络系统中的数据量通常十分庞大,因此实际应用场景中需要建立相应的异常检测系统进行网络异常行为的检测,从而及时发现并快速响应,减少或避免损失。现有异常检测系统通常基于机器学习模型进行构建(以行为特征作为输入),这类异常检测系统需要基于丰富的有标注的异常数据进行训练来达到较好的异常检测性能。然而在实际应用场景中,获取大量有标注的异常数据通常是十分困难的。

现有技术中无监督学习方法试图建立用于描述正常数据的模型,将正常样本和异常样本映射到不同区域。但由于其未对有标签的异常样本进行学习,因此无法学习到有关异常的先验知识,导致难以达到很好的效果。

现有的有监督/半监督学习方法虽然利用了极少量有标签异常数据中的先验信息,但由于学习过程中很容易对这些极少量的异常数据产生过拟合,故很难直接训练好一个有效的异常检测器。

发明内容

针对现有技术中的上述不足,本发明提供的一种基于行为特征编码的半监督网络异常行为检测方法,克服了难以获取大量有标注异常数据带来的困难、解决了由于不对有标签的异常样本进行学习导致的缺乏关于异常的先验知识的问题、解决了半监督算法中存在的对异常样本过拟合严重的问题。

为了达到以上目的,本发明采用的技术方案为:

本方案提供一种基于行为特征编码的半监督网络异常行为检测方法,包括以下步骤:

S1、构建基于自动编码器的无监督特征编码网络,并对其进行预训练,将原始网络行为数据样本向量映射至低维流型空间并进行重建,得到隐空间向量、重建残差向量和重建残差向量的二范数值三种特征编码;

S2、构建由所述无监督特征编码网络和基于全连接网络的异常打分网络构成的网络异常行为检测系统,将数据样本作为网络异常行为检测系统的输入,其中,所述三种特征编码作为异常打分网络的输入;

S3、获取待检测网络行为数据,利用所述网络异常行为检测系统进行异常检测,并输出异常检测结果,完成基于行为特征编码的半监督网络异常行为检测方法。

进一步地,所述步骤S1中的特征编码网络包括编码器和解码器;

所述编码器,用于将输入的原始网络行为数据样本从原始空间编码至低维的隐空间;

所述解码器,用于将原始网络行为数据样本的隐空间向量解码至原始样本空间,得到隐空间向量、重建残差向量和重建残差向量的二范数值三种特征编码。

再进一步地,所述步骤S1包括以下步骤:

S101、构建基于自动编码器的无监督特征编码网络,并对特征编码网络的参数进行随机初始化处理;

S102、输入原始网络行为数据样本至无监督特征编码网络,计算得到重建向量;

S103、根据所述重建向量,计算得到重建误差的二范数值作为特征编码网络的重建误差损失,优化特征编码网络的参数;

S104、判断重建误差损失是否低于预设的阈值,若是,则完成对特征编码网络的预训练,并进入步骤S105,否则,返回步骤S102;

S105、根据原始网络行为数据样本向量,利用无监督特征编码网络得到隐空间向量、重建残差向量和重建残差向量的二范数值三种特征编码。

再进一步地,所述计算得到重建误差的二范数值作为特征编码网络的重建误差损失的表达式如下:

L

其中,L

所述无监督特征编码网络的表达式如下:

ψ(X

W

W

其中,ψ(X

所述隐空间向量q

q

所述重建残差向量q

q

所述重建残差向量的二范数值q

q

再进一步地,所述步骤S2包括以下步骤:

S201、利用所述无监督特征编码网络以及基于全连接网络的异常打分网络搭建半监督学习的网络异常行为检测系统的架构;

S202、利用无标签训练数据样本和有标签的网络异常行为样本,对无监督特征编码网络和异常打分网络进行端到端的联合优化,所述联合优化过程分为多次迭代,在每次迭代中,将数据样本作为网络异常行为检测系统的输入,将特征编码网络输出的三种特征编码作为异常打分网络的输入,进行对网络异常行为检测系统的训练。

再进一步地,所述步骤S201中异常打分网络的第l层输出的表达式如下:

其中,Z

所述异常打分网络的下一层输入表达式如下:

其中,Z'

所述异常打分网络输出的异常分数表达式如下:

其中,s

再进一步地,所述步骤S202包括以下步骤:

S2021、加载预训练后的无监督特征编码网络,对异常打分网络的权重矩阵进行随机初始化处理;

S2022、计算得到联合损失函数;

S2023、根据联合损失,基于梯度下降法更新网络参数;

S2024、根据更新结果,判断损失是否低于阈值,若是,则更新网络异常行为检测系统的参数,完成对特征编码网络和异常打分网络进行端到端的联合优化,否则,返回步骤S2022。

再进一步地,所述步骤S2022中联合损失函数的表达式如下:

η(q

其中,

再进一步地,所述步骤S3包括以下步骤:

S301、获取待检测网络行为数据,利用所述网络异常行为检测系统得到异常分数;

S302、判断所述异常分数是否大于异常打分阈值,若是,则所述待检测网络行为数据为异常样本,否则,为正常样本,完成基于行为特征编码的半监督网络异常行为检测方法。

本发明的有益效果:

(1)本发明设计了一种新颖的特征编码网络来对输入的网络行为数据进行编码,以构建可用于网络异常行为检测的更有效特征表示,即通过基于Auto-encoder的特征编码网络将输入数据样本映射到一个低维的流型空间,得到基于流型空间的三种特征编码表示。

(2)本发明利用大量的无标签网络行为样本和极少量的有标签网络异常行为数据半监督地训练系统以检测异常样本,通过联合优化特征编码网络和异常打分网络实现高效的异常检测。

(3)本发明设计了联合损失函数对网络异常行为检测系统进行端到端联合优化,损失函数能在最小化特征编码网络的重建误差情况下,保证异常打分具有尽可能好的分辨网络正常行为与异常行为的能力。

(4)本发明采用了一种特殊设计的预训练策略。首先,通过无标签网络行为样本对特征编码网络进行预训练,获得基于流型空间的三种特征表示;预训练学习到的特征编码表示有效表达了正常样本的先验分布特征,能够使网络异常行为在基于流行空间的特征表达上与正常行为具有显著差异。然后利用无标签网络行为数据样本和有标签的网络异常行为数据样本对整个网络(由特征编码网络和异常打分网络组成的网络)进行端到端的训练,以联合优化特征编码网络的重建误差和整个网络的异常打分。联合优化后,网络正常行为与异常行为能够得到有效区分,从而帮助系统获得优异的网络异常行为检测性能。

(5)本发明为了有效学习网络行为样本的第三种特征编码(即重建残差向量的二范数值),设计了特殊的网络结构对该一维标量特征编码进行增强学习,从而强化其对网络异常行为检测效果的作用。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

实施例

本发明设计了一个基于行为特征编码的半监督网络异常行为检测方法,利用大量的无标签网络行为样本和极少量的有标签网络异常行为样本半监督地训练系统以检测网络异常行为样本(原始样本是利用已有方法得到的关于网络连接基本属性、内容特征、网络流量统计特征的属性描述)。该方法包含两部分,特征编码网络和异常打分网络。在特征编码网络部分,本发明提出了一种新颖的特征编码方法来对输入的网络行为数据样本进行编码,将输入数据样本映射为基于流型空间的三种特征编码(编码结果将一个输入样本映射为三种特征编码表示,具体可表示为两个特征向量和一个标量)。异常打分网络部分基于特征编码网络输出的三种特征编码进行样本的异常打分。异常打分网络设计了特殊的网络结构对一维标量特征编码进行增强学习,从而强化其对异常检测效果的作用。训练过程中首先需要对特征编码网络进行预训练,然后再对整个网络(由特征编码网络和异常打分网络组成的网络)进行端到端的训练。在预训练过程中,基于无标签网络行为数据样本预训练特征编码网络;在端到端训练过程中,基于无标签网络行为数据样本和有标签的网络异常行为数据样本进行联合优化。联合优化所使用的损失函数为本发明中特殊设计的损失函数,用于联合优化特征编码网络的重建误差和整个网络的异常打分。在联合优化后,网络正常行为与异常行为能够得到有效区分,从而得到了优异的网络异常行为检测性能。

如图1所示,本发明提供了一种基于行为特征编码的半监督网络异常行为检测方法,其实现方法如下:

S1、构建基于自动编码器Auto-encoder的无监督特征编码网络,并对其进行预训练,将原始网络行为数据样本向量映射至低维流型空间并进行重建,得到隐空间向量、重建残差向量和重建残差向量的二范数值三种特征编码,其实现方法如下:

S101、构建基于自动编码器的无监督特征编码网络,并对特征编码网络的参数进行随机初始化处理;

S102、输入原始网络行为数据样本至无监督特征编码网络,计算得到重建向量;

S103、根据所述重建向量,计算得到重建误差的二范数值作为特征编码网络的重建误差损失,优化特征编码网络的参数;

S104、判断重建误差损失是否低于预设的阈值,若是,则完成对特征编码网络的预训练,并进入步骤S105,否则,返回步骤S102;

S105、根据原始网络行为数据样本向量,利用无监督特征编码网络得到隐空间向量、重建残差向量和重建残差向量的二范数值三种特征编码。

本实施例中,特征编码网络包括编码器和解码器;编码器,用于将输入的原始网络行为数据样本从原始空间编码至低维的隐空间;解码器,用于将原始网络行为数据样本的隐空间向量解码为原始样本空间,得到隐空间向量、重建残差向量和重建残差向量的二范数值三种特征编码。

S2、构建由所述无监督特征编码网络和基于全连接网络的异常打分网络构成的网络异常行为检测系统,将数据样本作为网络异常行为检测系统的输入,其中,所述三种特征编码作为异常打分网络的输入,其实现方法如下:

S201、利用所述无监督特征编码网络以及基于全连接网络的异常打分网络搭建半监督学习的网络异常行为检测系统的架构;

S202、利用无标签训练数据样本和有标签的网络异常行为样本,对无监督特征编码网络和异常打分网络进行端到端的联合优化,所述联合优化过程分为多次迭代,在每次迭代中,将数据样本作为网络异常行为检测系统的输入,将特征编码网络输出的三种特征编码作为异常打分网络的输入,进行对网络异常行为检测系统的训练,其实现方法如下:

S2021、加载预训练后的无监督特征编码网络,对异常打分网络的权重矩阵进行随机初始化处理;

S2022、计算得到联合损失函数;

S2023、根据联合损失,基于梯度下降法更新网络参数;

S2024、根据更新结果,判断损失是否低于阈值,若是,则更新网络异常行为检测系统的参数,完成对特征编码网络和异常打分网络进行端到端的联合优化,否则,返回步骤S2022;

S3、获取待检测网络行为数据,利用所述网络异常行为检测系统进行异常检测,并输出异常检测结果,完成基于行为特征编码的半监督网络异常行为检测方法,其实现方法如下:

S301、获取待检测网络行为数据,利用所述网络异常行为检测系统得到异常分数;

S302、判断所述异常分数是否大于异常打分阈值,若是,则所述待检测网络行为数据为异常样本,否则,为正常样本,完成基于行为特征编码的半监督网络异常行为检测方法。

本实施例中,基于无监督学习Auto-encoder构建特征编码网络,将原始网络行为数据样本向量映射到一个低维的流型空间,输出编码后的三种特征编码:q

本实施例中,特征编码网络

本实施例中,基于编码器和解码器的特征编码网络

ψ(X

给定输入的网络行为数据样本

q

其中:q

特征编码网络对X

X'

特征编码网络的重建残差向量,即第二种特征编码表示为:

q

其中:

重建残差向量的二范数值,即第三种特征编码表示为:

q

其中:

本实施例中,使用无标签的网络行为数据样本对特征编码网络进行预训练。预训练过程如下:1.对特征编码网络的参数进行随机初始化。2.输入无标签网络行为数据样本X

本实施例中,构建基于半监督学习的网络异常行为检测系统。

(1)系统架构

系统包含两个网络,即特征编码网络和异常打分网络。特征编码网络构建并输出网络行为数据样本的三种特征编码;异常打分网络基于三种特征编码对样本进行异常打分,根据打分阈值确定输入数据样本是正常样本或异常样本。

异常打分网络

异常打分网络的权重表示为U={P

其中,

基于异常打分网络最后一层的权重向量

其中,

(2)网络异常行为检测系统的端到端联合优化

基于预训练的特征编码网络,将无标签训练数据样本和少量有标签的网络异常行为样本用于对特征编码网络和异常打分网络的端到端联合优化。优化过程中,将所有无标签的训练样本视为正常样本。联合优化过程如下:1.加载预训练后的特征编码网络参数Θ,对异常打分网络的权重矩阵U进行随机初始化。2.计算联合损失函数。3.根据联合损失,基于梯度下降算法更新系统的参数{Θ,U},直到损失低于阈值ε

联合损失函数包括两部分,即损失的先验分量以及损失的正则分量。损失的先验分量定义如下:

其中,

损失的正则分量基于正则化函数进行定义。设Q

η(q

其中,D

对于前两种特征编码(即{q

Ω(·;a)=(1-y)|·|+ymax(0,a-(·)) (10)

则异常打分的先验损失可以表示为:

对应三种特征编码的正则化损失可以表示为:

则基于公式(11)和(12),网络异常行为检测系统的联合损失可以表示为:

其中,λ

本实施例中,基于训练后的网络异常行为检测系统,对网络行为数据样本进行异常检测。

此步骤过程如下:1.将数据样本作为网络异常行为检测系统的输入,通过训练后的网络模型(包括特征编码网络与异常打分网络)得到此数据样本对应的异常分数。2.基于异常打分的阈值(默认为正常样本所对应异常打分的最大值),判断输入样本是否异常。如果数据样本的异常分数低于此阈值,则认为此数据样本是正常样本;如果数据样本的异常分数高于此阈值,则认为此数据样本是异常样本。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号