首页> 中国专利> 视频会议场景下基于机器学习的流数据安全漏洞探测方法

视频会议场景下基于机器学习的流数据安全漏洞探测方法

摘要

本发明提出了一种视频会议场景下基于机器学习的流数据安全漏洞探测方法,所述探测方法包括:对视频会议产生的网络流数据进行解析,将所述网络流数据转换为以数据帧为统计单位的特征向量,得到帧长分布序列矩阵;以训练后的流量分类模型输出的帧长分布序列矩阵的安全性评分为适应度函数,采用差分遗传算法定位帧长分布序列矩阵的安全漏洞位置和数据调整量;采用在数据帧的长度位于所述安全漏洞位置所对应的长度范围内的网络流数据中添加所述数据调整量的扰动数据或者填充所述数据调整量的数据帧的方式,弥补流数据安全漏洞。本发明通过差分遗传算法定位关键特征与波动参数,扰动视频会议的流数据特征,阻止因流数据特征引起的隐私泄露问题的发生。

著录项

  • 公开/公告号CN112398875A

    专利类型发明专利

  • 公开/公告日2021-02-23

    原文格式PDF

  • 申请/专利号CN202110059166.0

  • 发明设计人 王帅;朱敏;

    申请日2021-01-18

  • 分类号H04L29/06(20060101);G06N3/12(20060101);G06K9/62(20060101);H04N7/15(20060101);

  • 代理机构11569 北京高沃律师事务所;

  • 代理人杜阳阳

  • 地址 100097 北京市海淀区昆明湖南路51号B座一层108号

  • 入库时间 2023-06-19 10:00:31

说明书

技术领域

本发明涉及安全漏洞探测技术领域,特别是涉及一种视频会议场景下基于机器学习的流数据安全漏洞探测方法。

背景技术

随着通信技术和多媒体技术的发展,人们越来越不满足于文本和语音的交流,以视频会议为主的网络多媒体应用变得越来越广泛。同时,第五代通信技术的大规模普及,也促使视频会议系统更加智能、高效、方便、快捷,不仅全面提升各行业的信息化水平,而且做到各方零距离交流。视频会议是一种在远程、多点之间提供实时音频和视频传输的会议业务,多方时刻传输并接受流数据形式的视频信息、语音信息和文字信息等。但是,由于流数据的特性:体量巨大、价值高等,使视频会议的过程更容易遭受空口无线信号干扰和协议攻击。目前,视频会议的数据使用第五代移动通信技术传输,即数据传输的过程中仍使用SSL/TLS协议对流量进行加密,但是使用此种方式保护的流数据不能避免攻击者的特征分析,即攻击者从捕获的海量流数据包中分析得到其中的统计特征信息,比如帧字节的长度统分布矩阵、包字节的长度分布矩阵等。而这些信息经过特定的组合、筛选和分析之后,将能从侧面反映出参与方的行为、表现和会议进程等信息。因此,有必要研究一种视频会议场景下基于机器学习的流数据安全漏洞探测方法,有效寻找隐私暴露的特征点,以此反馈相应的特征改进方案为用户身份隐私和数据安全提供技术支撑。

发明内容

本发明的目的是提供一种视频会议场景下基于机器学习的流数据安全漏洞探测方法,以实现有效寻找隐私暴露的特征点。

为实现上述目的,本发明提供了如下方案:

一种视频会议场景下基于机器学习的流数据安全漏洞探测方法,所述探测方法包括如下步骤:

对视频会议产生的网络流数据进行解析,将所述网络流数据转换为以数据帧为统计单位的特征向量,得到帧长分布序列矩阵;

以训练后的流量分类模型输出的帧长分布序列矩阵的安全性评分为适应度函数,采用差分遗传算法定位帧长分布序列矩阵的安全漏洞位置和数据调整量;

采用在数据帧的长度位于所述安全漏洞位置所对应的长度范围内的网络流数据中添加所述数据调整量的扰动数据或者填充所述数据调整量的数据帧的方式,弥补流数据安全漏洞。

可选的,所述对视频会议产生的网络流数据进行解析,将所述网络流数据转换为以数据帧为统计单位的特征向量,得到帧长分布序列矩阵,具体包括:

获取视频会议产生的网络流数据片段集合;

初始化第一索引值

根据片段集合的第i个片段中每个数据帧的长度,确定不同长度范围内的数据帧的个数,建立第i个片段的帧长分布序列

令索第一引值i的数值增加1,返回步骤“根据片段集合的第i个片段中每个数据帧的长度,确定不同长度范围内的数据帧的个数,建立第i个片段的帧长分布序列

可选的,所述获取视频会议产生的网络流数据片段集合,之后还包括:

使用Scapy嗅探工具探测片段集合中每个片段的源地址和目的地址;

删除片段集合中源地址和目的地址均与采集设备的物理地址不同的片段,获得更新后的片段集合。

可选的,所述根据片段集合的第i个片段中每个数据帧的长度,确定不同长度范围内的数据帧的个数,建立第i个片段的帧长分布序列

建立大小为

设置第二索引值

根据第i个片段中第j个数据帧的长度,利用公式

令第二索引值j的数值增加1,返回步骤“根据第i个片段中第j个数据帧的长度,利用公式

计算所述统计矩阵

可选的,得到片段集合中每个片段的帧长分布序列组成的帧长分布序列矩阵

移除帧长分布序列矩阵

可选的,所述以训练后的流量分类模型输出的帧长分布序列矩阵的安全性评分为适应度函数,采用差分遗传算法定位帧长分布序列矩阵的安全漏洞位置和数据调整量,具体包括:

初始化差分遗传算法的规模f为父代种群

将父代种群中每个个体以变异率

利用训练后的流量分类模型计算父代种群和子代种群中每个个体的适应度函数值;

根据每个个体的适应度函数值,利用公式

采用轮盘法从父代种群和子代种群中选取轮盘权重较大的f个个体组成新的父代种群,返回步骤“将父代种群中每个个体以变异率

输出轮盘权重最大的个体的索引位置对应的数据帧的长度范围作为安全漏洞位置,轮盘权重最大的个体的索引位置的波动值作为数据调整量。

可选的,所述利用训练后的流量分类模型计算父代种群和子代种群中每个个体的适应度函数值,具体包括:

利用个体中的索引位置和索引位置的波动值,更新帧长分布序列矩阵,得到所述个体对应的帧长分布序列矩阵;

利用训练后的流量分类模型,计算所述个体对应的帧长分布序列矩阵的安全性评分,作为所述个体的适应度函数值。

可选的,所述将父代种群中每个个体以变异率

将父代种群中每个个体以变异率

删除变异个体集合中变异波动量大于变异波动量阈值的个体,获得更新后的变异个体集合;

交叉父代种群中每两个个体的基因,建立交叉个体集合;

获取更新后的变异个体集合和所述交叉个体集合的并集,作为子代种群。

可选的,所述流量分类模型包括: C4.5决策树分类模型、支持向量机分类模型、多层感知机分类模型、随机森林分类模型、高斯朴素贝叶斯分类模型、梯度下降树分类模型、K最近邻分类模型和逻辑回归分类模型。

可选的,所述流量分类模型利用公式

其中,

与现有技术相比,本发明的有益效果是:

本发明提出了一种视频会议场景下基于机器学习的流数据安全漏洞探测方法,所述探测方法包括如下步骤:对视频会议产生的网络流数据进行解析,将所述网络流数据转换为以数据帧为统计单位的特征向量,得到帧长分布序列矩阵;以训练后的流量分类模型输出的帧长分布序列矩阵的安全性评分为适应度函数,采用差分遗传算法定位帧长分布序列矩阵的安全漏洞位置和数据调整量;采用在数据帧的长度位于所述安全漏洞位置所对应的长度范围内的网络流数据中添加所述数据调整量的扰动数据或者填充所述数据调整量的数据帧的方式,弥补流数据安全漏洞。本发明通过差分遗传算法定位关键特征与波动参数,扰动视频会议的流数据特征,阻止因流数据特征引起的隐私泄露问题的发生。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明提供的一种视频会议场景下基于机器学习的流数据安全漏洞探测方法;

图2为本发明提供的实现本发明的探测方法的各个模块的连接关系图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的目的是提供一种视频会议场景下基于机器学习的流数据安全漏洞探测方法,以实现有效寻找隐私暴露的特征点。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1和2所示,本发明提供一种视频会议场景下基于机器学习的流数据安全漏洞探测方法,所述探测方法包括如下步骤:

步骤101,对视频会议产生的网络流数据进行解析,将所述网络流数据转换为以数据帧为统计单位的特征向量,得到帧长分布序列矩阵。

步骤101所述对视频会议产生的网络流数据进行解析,将所述网络流数据转换为以数据帧为统计单位的特征向量,得到帧长分布序列矩阵,具体包括:获取视频会议产生的网络流数据片段集合;初始化第一索引值

其中,所述获取视频会议产生的网络流数据片段集合,之后还包括:使用Scapy嗅探工具探测片段集合中每个片段的源地址和目的地址;删除片段集合中源地址和目的地址均与采集设备的物理地址不同的片段,获得更新后的片段集合。

所述根据片段集合的第i个片段中每个数据帧的长度,确定不同长度范围内的数据帧的个数,建立第i个片段的帧长分布序列

得到片段集合中每个片段的帧长分布序列组成的帧长分布序列矩阵

本发明步骤101基于数据帧特征工程模块201实现。

数据帧特征工程模块201的主要功能是通过解析流数据并转换为以数据帧为统计单位的特征向量,用于后续定位流数据特征所造成的安全漏洞。首先,通过Scapy嗅探工具解析网络流数据,过滤噪音数据。Scapy嗅探工具可以将码流解析为以数据帧为单位的解析字符并记录相应的时间戳、传输源端和目的端,通过检测数据帧源端和目的端过滤与本次视频会议无关的数据帧;其次,统计数据帧的帧长分布序列。建立统计矩阵,依次记录每个数据帧长度,并以一定长度的滑动窗口将统计矩阵展平为帧长分布序列;最后,处理帧长分布序列中的非法值或无区分度值。该模块通过输入视频会议流数据和滑动窗口参数,输出一定长度的帧长统计序列(长度由流数据和滑动窗口参数共同决定)。

数据帧特征工程模块201具体步骤如下:

步骤1:初始化流数据与相关参数。视频会议产生的网络流数据片段集合

步骤2:解析并过滤噪音数据帧。若首次执行步骤2,则设置索引值

建立统计矩阵,依次记录每个数据帧长度。建立大小为

步骤3-1:读取数据帧。若首次执行步骤3-1,则设置索引值

步骤3-2:分析数据帧长度,并更新统计矩阵

步骤3-3:更新索引值

将统计矩阵展平为帧长分布序列。计算统计矩阵

更新索引值

帧长分布序列校验与降维。移除帧长分布序列

步骤102,以训练后的流量分类模型输出的帧长分布序列矩阵的安全性评分为适应度函数,采用差分遗传算法定位帧长分布序列矩阵的安全漏洞位置和数据调整量。

步骤102所述以训练后的流量分类模型输出的帧长分布序列矩阵的安全性评分为适应度函数,采用差分遗传算法定位帧长分布序列矩阵的安全漏洞位置和数据调整量,具体包括:初始化差分遗传算法的规模f为父代种群

其中,所述利用训练后的流量分类模型计算父代种群和子代种群中每个个体的适应度函数值,具体包括:利用个体中的索引位置和索引位置的波动值,更新帧长分布序列矩阵,得到所述个体对应的帧长分布序列矩阵;利用训练后的流量分类模型,计算所述个体对应的帧长分布序列矩阵的安全性评分,作为所述个体的适应度函数值。

其中,所述将父代种群中每个个体以变异率

所述流量分类模型包括: C4.5决策树分类模型、支持向量机分类模型、多层感知机分类模型、随机森林分类模型、高斯朴素贝叶斯分类模型、梯度下降树分类模型、K最近邻分类模型和逻辑回归分类模型。所述流量分类模型利用公式

本发明的步骤102通过基于机器学习的流数据安全评测模块202和基于机器学习对抗性攻击的漏洞定位模块203实现。

基于机器学习的流数据安全评测模块的主要功能是通过基于机器学习的流量分类技术,以分类模型的F1评分评价当前视频会议流数据安全性。首先,构造经典机器学习流量分类模型。为了避免单一分类模型误差影响整体评分准确度,构造C4.5决策树、支持向量机、多层感知机、随机森林、高斯朴素贝叶斯、梯度下降树、K最近邻和逻辑回归8种流量分类模型;其次,根据视频会议流数据特征训练各个流量分类模型,并计算F1评分;最后,根据每个分类模型的评分综合计算当前网络视频会议流数据安全性。该模块通过输入帧长分布序列和相应的来源,输出对网络视频会议流数据安全性评分。

基于机器学习的流数据安全评测模块的具体步骤如下:

步骤1:建立经典机器学习流量分类模型。利用python的sklearn库构建8个机器学习分类器,它们分别是C4.5决策树、支持向量机、多层感知机、随机森林、高斯朴素贝叶斯、梯度下降树、K最近邻和逻辑回归。在多层感知机分类中,设置其最大迭代次数设置为5000轮,并设置参数early stopping为True,表示若分类误差在数轮循环数据迭代中不再显著下降时分类终止,以高效的找到训练数据的最佳迭代次数。对于逻辑回归分类器,使用“lbfgs”作为数值求解器,指定范数为“l2”用于惩罚。在随机森林算法中设置100个决策树构成森林。其余模型参数设置为默认。

步骤2:训练、评价视频会议流数据分类模型组。对帧长分布序列

步骤3:评价视频会议流数据安全性。将评分序列

基于机器学习对抗性攻击的漏洞定位模块的主要功能是通过差分遗传算法定位关键特征与波动参数,扰动视频会议的流数据特征,阻止因流数据特征引起的隐私泄露发生。首先,初始化种群。定义个体基因型格式,并随机生成初始化个体;其次,种群变异。设置变异率,并使每个个体以一定变异率发生基因变异;之后,种群个体交叉。个体随机配对,交叉产生子个体;然后,个体选择。筛选使

基于机器学习对抗性攻击的漏洞定位模块具体步骤如下:

步骤1:构建差分遗传算法结构、初始化种群

步骤2:基因变异。种群中每个个体以变异率

步骤3:种群中个体交叉。配对种群

步骤4:种群中个体选择。计算个体在种群中的适应度,并根据适应度采用轮盘法选择出一定数量个体(一般与初始种群数量一致,可以根据计算能力调整)。具体步骤如下:

步骤4-1:计算每个个体适应度。将个体基因型

步骤4-2:计算轮盘中个体的权重。将

步骤4-3:从种群中选择个体。通过轮盘法选择出一定个体数量的种群

步骤5:重复执行步骤2~4,直到种群中出现评分达到一定要求的个体或达到一定轮次阈值(个体要求和轮次阈值可根据场景定义)。

步骤6:验证评分,并转换为漏洞定位信息。首先,选择轮盘权值最高个体

步骤103,采用在数据帧的长度位于所述安全漏洞位置所对应的长度范围内的网络流数据中添加所述数据调整量的扰动数据或者填充所述数据调整量的数据帧的方式,弥补流数据安全漏洞。

本发明步骤103基于机器学习对抗性攻击的漏洞定位模块实现,具体的,基于机器学习对抗性攻击的漏洞定位模块还执行如下步骤:提供漏洞修复参考方案。在数据帧长度为帧长分布序列矩阵

与现有技术相比,本发明的有益效果是:

本发明提出了一种视频会议场景下基于机器学习的流数据安全漏洞探测方法,本发明通过探测视频会议数据传输中可能引起数据泄露问题发生的数据帧,提醒并提供合理策略避免攻击者对流数据帧统计、分类以得出视频会议用户的私密信息,最终保护视频会议用户操作的隐秘性和视频服务的安全性。本发明包括数据帧特征工程模块、基于机器学习的流数据安全评测模块、基于机器学习对抗性攻击的漏洞定位模块。数据帧特征工程模块的主要功能是通过解析流数据并转换为以数据帧为统计单位的特征向量,用于后续定位流数据特征所造成的安全漏洞。基于机器学习的流数据安全评测模块的主要功能是通过基于机器学习的流量分类技术,以分类模型的F1评分评价当前视频会议流数据的安全性。基于机器学习对抗性攻击的漏洞定位模块主要是通过差分遗传算法定位关键特征与波动参数,扰动视频会议的流数据特征,阻止因流数据特征引起的隐私泄露问题的发生。具有比现有漏洞探测方式定位更加快速、抗干扰能力更强的特点。

本说明书中等效实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,等效实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上,本说明书内容不应理解为对本发明的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号