首页> 中国专利> 一种基于改进蜜獾算法的物联网设备识别特征提取与选择方法

一种基于改进蜜獾算法的物联网设备识别特征提取与选择方法

摘要

本发明公开了一种基于改进蜜獾算法的物联网设备识别特征提取与选择方法,包括:步骤一、从物联网环境网关中捕获流量数据,提取物联网流量特征数据;步骤二、对提取到的特征数据进行标准化预处理;步骤三、构建多目标联合特征选择的目标函数,利用目标函数评价特征子集;步骤四、通过改进的蜜獾算法求解特征子集,输出最优特征子集。能够从真实物联网流量环境中提取出特征进行选择分类,能够有效降低特征子集的维数,提高物联网设备分类效率,减少分类器的计算开销,减少运行时间。

著录项

  • 公开/公告号CN115660025A

    专利类型发明专利

  • 公开/公告日2023-01-31

    原文格式PDF

  • 申请/专利权人 吉林大学;吉林大学深圳研究院;

    申请/专利号CN202211307323.6

  • 发明设计人 康辉;王渤雄;李家辉;李洪娟;

    申请日2022-10-25

  • 分类号G06N3/006;G06F18/241;G06F18/211;

  • 代理机构北京远大卓悦知识产权代理有限公司;

  • 代理人刘小娇

  • 地址 130000 吉林省长春市前进大街2699号

  • 入库时间 2023-06-19 18:29:06

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-01-31

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及一种基于改进蜜獾算法的物联网设备识别特征提取与选择方法,属于物联网设备识别领域。

背景技术

随着物联网规模的飞速增长,各种网络安全问题也变得复杂多样化,攻击者们能够利用一种设备型号的漏洞危害成千上万个相同类型设备。除此之外,由于物联网设备通常配置更低的计算资源,所以比一般的计算机更加脆弱,更容易遭受大规模的网络攻击。而设备识别是检测与预防这些安全问题的一个重要手段。近年来,有关物联网设备识别系统的研究不断被提出,它们通常基于机器学习的方法从网络流量中提取特征并选择一部分特征进行分类工作,然而在这个过程中,特征提取和特征选择往往是许多研究的短板和难点,又因为网络流量特征的高维度特点,因此,开发一种用于设备识别的特征提取和特征选择方法,可以有效克服上述技术中的缺陷,更有利于物联网设备识别研究的发展。

发明内容

本发明设计开发了一种基于改进蜜獾算法的物联网设备识别特征提取与选择方法,能够从真实物联网流量环境中提取出特征进行选择分类,能够有效降低特征子集的维数,提高物联网设备分类效率,减少分类器的计算开销,减少运行时间。

本发明提供的技术方案为:

一种基于改进蜜獾算法的物联网设备识别特征提取与选择方法,包括:

步骤一、从物联网环境网关中捕获流量数据,提取物联网流量特征数据;

步骤二、对提取到的特征数据进行标准化预处理;

步骤三、构建多目标联合特征选择的目标函数,利用目标函数评价特征子集;

步骤四、通过改进的蜜獾算法求解特征子集,输出最优特征子集。

优选的是,所述步骤二中,所述特征数据进行标准化公式为:

其中,y

优选的是,所述步骤三中目标函数的公式为:

其中,fitness为适应度,ACC为当前模型在测试集上表现的准确率,num_feat为当前搜索个体选择的特征数,max_feat为特征总数,TP为被分类器预测为正样本的样本数目,TN为被分类器预测为负样本事实上为负样本的样本数目,FN为被分类器预测为负样本事实上为正样本的样本数目。

优选的是,所述步骤四包括:

步骤1、通过Sine混沌映射和种群过滤机制进行种群初始化;

步骤2、引入一种子种群机制,将当前种群划为两个子种群,并分别选出每个子种群的最优解,分别定义为当前算法的最优解和次优解,以最优解和次优解分别引导两个种群进行位置更新;

步骤3、对种群内个体的离散解空间的位置向量进行二进制映射;

步骤4、合并子种群,输出最优特征组合;

当迭代次数不满足终止条件时,则重复步骤2-4。

优选的是,所述步骤1包括:

使用Sine混沌映射生成2倍个体数量的初始种群X

h

X

式中,h

通过目标函数计算种群中个体的适应度并排序;

取X

优选的是,所述步骤2包括:

更新气味强度因子I

S=(X

d

式中,I

进行位置更新,

式中,X

优选的是,所述生成服从Lévy分布的随机步长的方法包括:

式中,S为生成的随机步长,u~N(0,σ

式中,Γ()为伽玛函数,η为常数,取1.5。

优选的是,所述步骤3包括:

对种群内个体的离散解空间的位置向量进行二进制映射,映射函数为:

式中,x

本发明所述的有益效果:

本发明提出的一种物联网设备识别的特征提取和特征分类方法,能够从真实物联网流量环境中提取出特征进行选择分类,不必依靠过去现有的数据集,提取出的数据集能达到95%的分类准确率。所述的用于物联网设备识别特征选择的改进蜜獾算法性能超过原算法,并且优于其他同类算法,准确率及适应度值均有所提高,能够有效降低特征子集的维数,减少分类器的计算开销,减少运行时间,在物联网设备识别领域有着广泛的应用前景。

附图说明

图1为本发明所述的基于改进蜜獾算法的物联网设备识别特征提取与选择方法流程图。

图2为本发明所述的改进二进制蜜獾算法求解最优特征子集的流程图。

具体实施方式

下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。

如图1-2所示,本发明提供一种基于改进蜜獾算法的物联网设备识别特征提取与选择方法,包括:

步骤一、从物联网环境网关中捕获流量数据,提取物联网流量特征数据;

使用网络封包工具wireshark从物联网环境的网关中捕获pcap或pcapng数据文件;

用python语言的scapy模块解析每个数据包的协议报头、数据包等信息,所包含的协议包括Ethernet、LLC、EAPOL、IP、ICMP、TCP、UDP、BOOTP、DNS、NTP、TLS、SSL,除此之外还包括packet_size、payload_bytes、protocols流量特征,总共得到111维特征数据;

步骤二、对提取到的特征数据进行标准化预处理;

将得到的数据进行数值化、去重、缺失值填充的数据规范化操作,并进行数据标准化预处理,所用到的数据标准化公式如下:

其中,y

步骤三、构建多目标联合特征选择的目标函数,利用目标函数评价特征子集;

目标函数的公式为:

其中,fitness为适应度,ACC为当前模型在测试集上表现的准确率,num_feat为当前搜索个体选择的特征数,max_feat为特征总数,TP为被分类器预测为正样本的样本数目,TN为被分类器预测为负样本事实上为负样本的样本数目,FN为被分类器预测为负样本事实上为正样本的样本数目。

步骤四、通过改进的蜜獾算法求解特征子集,输出最优特征子集,包括:

步骤1、使用Sine混沌映射初始化种群,并使用种群过滤机制得到前一半较优的解,Sine混沌映射及种群过滤机制包括:

使用Sine混沌映射生成2倍个体数量的初始种群X

h

X

式中,h

通过目标函数计算种群中个体的适应度并排序;

取X

更新平衡因子α,公式如下:

式中,t

步骤2、引入一种子种群机制,将当前种群划为两个子种群,并分别选出每个子种群的最优解,分别定义为当前算法的最优解和次优解,以最优解和次优解分别引导两个种群进行位置更新,具体过程包括:

利用目标函数计算种群中个体的适应度值并排序;

将排序后的种群按照奇、偶索引划分为两个子种群;

每个子种群中适应值最好的值分别为对应算法的最优解、次优解;

更新气味强度因子I

S=(X

d

式中,I

对两个种群使用下式分别进行位置更新,

式中,X

在公式X

式中,S为生成的随机步长,u~N(0,σ

式中,Γ()为伽玛函数,η为常数,取1.5。

步骤3、对种群内个体的离散空间的位置向量进行二进制映射,映射函数如下:

式中,x

步骤4、合并当前两个子种群为一个种群,并得到当前算法的最优解

判断是否满足迭代终止条件,当不满足时,重复步骤2-4;

输出最优特征子集。

尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号