公开/公告号CN113256507A
专利类型发明专利
公开/公告日2021-08-13
原文格式PDF
申请/专利权人 南京信息工程大学;
申请/专利号CN202110355447.0
申请日2021-04-01
分类号G06T5/00(20060101);G06K9/46(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构32204 南京苏高专利商标事务所(普通合伙);
代理人柏尚春
地址 210044 江苏省南京市江北新区宁六路219号
入库时间 2023-06-19 12:13:22
技术领域
本发明涉及流量检测领域,特别是一种针对二进制流量数据生成图像的注意力增强方法。
背景技术
近年来,随着计算机网络和已被开发的应用程序规模呈指数级增长,网络流量的数量也呈爆炸性的增加,并且种类繁多且不断增加。移动设备的迅速发展以及移动应用和服务的日益普及,对移动和无线网络基础设施提出了前所未有的要求。为了更好的适应音频、视频、P2P等出现的大量应用,需要一个能够精准而快速的对网络流量进行分类的工具,这不仅能维护网络的秩序,更能提高网络的速度。目前网络恶意流量攻击造成的损害也显著增加,造成了巨大的经济损失。但是随着移动环境越来越复杂、结构也不断改变,准确快速地完成这一任务是一个很大的挑战,早先的流量分类方法已不能够及时应对庞大的网络流量数目,对恶意流量也不能够及时做出防范,如何对恶意流量做出准确而快速防范成为了当下亟待解决的问题。
发明内容
发明目的:本发明的目的是提供一种可准确快速分类网络流量、提高网络速度、有效拦截恶意流量的针对二进制流量数据生成图像的注意力增强方法。
技术方案:本发明所述的一种针对二进制流量数据生成图像的注意力增强方法,包括以下步骤:
(1)对原始流量数据集中的二进制帧序列进行有效部分截取,截取到的有效部分转换为二维灰度图像;
(2)将步骤(1)获得的二维灰度图像使用特征提取模型进行特征提取,保留训练得到的网络各层参数;
(3)对步骤(2)中得到的各个特征作为根结点,对各层参数分别通过最长带权路径树进行遍历计算,得到三条最长带权路径;通过对该三条最长带权路径回溯,找到注意力最佳的三个像素集合;
(4)对步骤(3)中找到的注意力最佳的三个像素集合进行相应的三通道“染色”,生成注意力增强的二维彩色图像;
(5)对步骤(4)中所有得到的彩色图像排列成新的图像帧序列;
(6)将步骤(5)中得到的新图像帧序列输入CNN中进行最终的流量检测和分类。
所述步骤(1)包括以下步骤:
(1.1)将数据集中的原始流量截取784字节为有效帧,一个字节为8比特,正好对应了256灰阶;
(1.2)对于步骤(1.1)中得到的784字节数据以一个字节转化为一个像素点,由该字节的8比特二进制值转化为十进制数得到该像素点的灰阶,以此为标准,输出一组二维灰度图像。
所述步骤(2)包括以下步骤:
(2.1)首先在数据集上使用特征提取模型训练,将训练好的网络各层神经元的权重对模型进行初始化;
(2.2)使用特征提取模型进行特征提取,得到特征图,将其连接到单个激活函数的神经元分类层,该层以sigmoid作为激活函数;
(2.3)使用小批量随机梯度下降作为优化器,并设置动量以及批次大小,将二分类交叉熵作为损失函数;将二维灰度图像集重新随机排列,在步骤(2.2)所述的模型上训练。
所述步骤(3)包括以下步骤:
(3.1)对于训练后的特征提取模型,将其最后一层单神经元分类层与全局平均池化层剔除,得到以二维灰度图像为输入,最后一层卷积层激活值为输出的特征提取模型,记作M(x;W),其中x表示输入的灰度图像,W表示模型的权值;
(3.2)将特征提取模型提取出的特征分别作为根结点,对得到的各层参数取绝对值后,使用最长带权路径树查找算法,找到最长的带权路径树e
(3.3)对(3.2)得到的三条最长带权路径e
所述步骤(4)包括以下步骤:
(4.1)对三个像素集合A、B和C的权重w
E
并取所有二维图像的像素值做以下归一化:
(4.2)对A、B、C分别进行“染色”,其中像素集合A中的三通道分量为:
(C
像素集合B中的三通道分量为:
(C
像素集合C中的三通道分量为:
(C
之后对所有图像的像素值向上取整:
生成具注意力增强的二维彩色图像。
所述步骤(6)包括以下步骤:
(6.1)首先对得到的彩色图像像素值进行归一化,由0~255转换为0~1;之后进行第一次卷积,第一个卷积层C1使用尺寸为5*5的卷积核,共有32个通道,生成32个特征图,特征图尺寸为28*28;然后在池化层P1经过2*2的最大值池化操作,生成32个特征图,特征图尺寸为14*14;
(6.2)在第二个卷积层C2中进行第二次卷积操作,第二个卷积层同样使用尺寸为5*5的卷积核,但通道数为64,生成64个特征图,特征图尺寸为14*14;然后在池化层P2经过2*2的最大值池化操作,生成64个特征图,特征图尺寸为7*7;
(6.3)之后经过两个全连接层,为了防止过拟合,加入了概率为0.5的dropout,最后使用softmax函数输出各类的概率值,即模型的预测值,将输出的取值规范到[0,1],输出越接近0,输入恶意流量概率则越大,输出越接近1,输入正常流量概率则越大。
有益效果:与现有技术相比,本发明具有如下优点:1、能够对二进制流量数据生成的图像进行特征增强,使分类器收敛的速度更快,也更加精确;2、可以用于多种流量分类算法的预处理操作,也可以作为其他问题的预处理操作,增强注意力,使模型更加快速地收敛。
附图说明
图1为注意力增强流量分类模块的结构图;
图2为特征提取模型的完整结构;
图3为特征提取模型中的LBBlock模块的结构图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
如图1所示,本发明所述的一种针对二进制流量数据生成图像的注意力增强方法,包括如下步骤:
(1)采用的USTC-TFC2016数据集,数据集USTC-TFC2016包含两个部分,一是从由CTU大学的研究人员采集到的数据集中选取的10种恶意流量,二是采集的10种正常流量,总大小3.71GB,该数据集较为科学,并且已被公开;对原始流量数据集中的二进制帧序列进行有效部分截取,截取到的有效部分转换为二维灰度图像;具体包括:
(1.1)将数据集中的原始流量截取784字节为有效帧,一个字节为8比特,正好对应了256灰阶;
(1.2)对于步骤(1.1)中得到的784字节数据以一个字节转化为一个像素点,由该字节的8比特二进制值转化为十进制数得到该像素点的灰阶,以此为标准,输出一组二维灰度图像。
(2)将步骤(1)获得的二维灰度图像使用特征提取模块进行特征提取,保留训练得到的网络各层参数;具体包括:
(2.1)首先在USTC-TFC2016数据集上使用特征提取模块训练,将训练好的网络各层神经元的权重对模型进行初始化;
(2.2)使用特征提取模块进行特征提取,得到特征图,将其连接到单个激活函数的神经元分类层,该层以sigmoid作为激活函数;
(2.3)使用小批量随机梯度下降作为优化器,设置动量为0.95,批次大小为 32,将二分类交叉熵作为损失函数;将二维灰度图像集重新随机排列,在步骤(2.2) 所述的模型上训练。
特征提取模型的架构如图2所示,主要包括LBBlock模块,该模块包含5个1×1 卷积与1个通道分离卷积,LBBlock模块的结构如图3所示。
(3)对步骤(2)中得到的各个特征作为根结点,对各层参数分别通过最长带权路径树进行遍历计算,得到三条最长带权路径;通过对该三条最长带权路径回溯,找到注意力最佳的三个像素集合;具体如下:
(3.1)对于训练后的特征提取模块,将其最后一层单神经元分类层与全局平均池化层剔除,得到以二维灰度图像为输入,最后一层卷积层激活值为输出的特征提取模型,记作M(x;W),其中x表示输入的灰度图像,W表示模型的权值;
(3.2)将特征提取模块提取出的特征分别作为根结点,对得到的各层参数取绝对值后,使用最长带权路径树查找算法,找到最长的带权路径树e1、除e
(3.3)对(3.2)得到的三条最长带权路径e
(4)对步骤(3)中找到的注意力最佳的三个像素集合进行相应的三通道“染色”,生成注意力增强的二维彩色图像;具体如下:
(4.1)对三个像素集合A、B和C的权重w
E
并取所有二维图像的像素值做以下归一化:
(4.2)对A、B、C分别进行“染色”,其中像素集合A中的三通道分量为:
(C
像素集合B中的三通道分量为:
(C
像素集合C中的三通道分量为:
(C
之后对所有图像的像素值向上取整
生成具注意力增强的二维彩色图像。
(5)对步骤(4)中所有得到的彩色图像排列成新的图像帧序列。
(6)将步骤(5)中得到的新图像帧序列输入CNN中进行最终的流量检测和分类;具体如下:
(6.1)首先对得到的彩色图像像素值进行归一化,由0~255转换为0~1;之后进行第一次卷积,第一个卷积层C1使用尺寸为5*5的卷积核,共有32个通道,生成32个特征图,特征图尺寸为28*28;然后在池化层P1经过2*2的最大值池化操作,生成32个特征图,特征图尺寸为14*14;
(6.2)在第二个卷积层C2中进行第二次卷积操作,第二个卷积层同样使用尺寸为5*5的卷积核,但通道数为64,生成64个特征图,特征图尺寸为14*14;然后在池化层P2经过2*2的最大值池化操作,生成64个特征图,特征图尺寸为7*7;
(6.3)之后经过两个全连接层,为了防止过拟合,加入了概率为0.5的dropout,最后使用softmax函数输出各类的概率值,即模型的预测值,将输出的取值规范到 [0,1],输出越接近0,输入恶意流量概率则越大,输出越接近1,输入正常流量概率则越大。
本实施例在USTC-TFC2016数据集上进行了训练和测试,数据集 USTC-TFC2016包含两个部分,一是从由CTU大学的研究人员采集到的数据集中选取的10种恶意流量,二是采集的10种正常流量,总大小3.71GB,该数据集较为科学,并且已被公开。表1中展示了USTC-TFC2016数据集的恶意流量种类列表。表2中展示了USTC-TFC2016数据集的正常流量种类列表。本实施例测试了恶意流量和正常流量的种类的变化对检测分类精度的影响,对2分类、10分类和20分类的分别测试了其检测精度,在USTC-TFC2016数据集上的三种分类精度展示在表3 中。可以发现,在三种分类中,即使分类的类别增多,分类精度一直保持在较高的水平也有明显的变化,本发明所提出的方案的精度在2分类、10分类和20分类中都有较高的精度,进一步证明了本方案在流量检测分类中增强注意力的优越性。
表1
表2
表3
机译: 医学图像计算机断层扫描图像,一种在手术期间使用的生成方法,涉及基于重建体积生成体积图像数据集,并针对图像数据集的截面平面生成医学图像
机译: 用于压缩和解压缩彩色数字视频数据的视频电信系统和方法技术领域本发明涉及一种用于压缩电信系统视频中数字彩色视频数据的方法,该方法具有用于生成视频信号的装置,该装置是用于生成视频信号的装置。将视频信号转换为多个彩色视频帧速率,每个帧图像由多个扫描线组成,扫描线由多个像素组成,图像中的每个像素由彩色数字分量组成(该方法包括确定功能的步骤);基于彩色数字(b)的三个分量中的至少一个的亮度像素,基于两个像素之间的亮度差异,针对当前图像表的扫描线中的至少大部分像素,确定至少一个参数决策。与每条扫描线中至少一个像素相距预定距离的像素,以及至少(c)比较决策参数与
机译: 一种用于处理和再现数字视频信号的设备,其中像素时钟同步脉宽调制用于从半色调图像数据生成二进制信号