首页> 中国专利> 一种基于指数衰减的标签影响度计算方法及系统

一种基于指数衰减的标签影响度计算方法及系统

摘要

本发明提供一种基于指数衰减的标签影响度计算方法及系统,涉及网络安全技术领域,对所有的标签历史数据进行整理,形成固定格式的序列数据;利用指数衰减函数分别计算出初步影响度和基于时间的频次惩罚项因子;将初步影响度和频次惩罚因子求积再求和;通过sidmoid函数得到标签影响度。本发明针对标签的影响度计算给出了分层的计算方案,实现了基于所评估标签历史数据的影响度绝对值评估,不依赖全量的标签历史数据,可用性较高。本发明通过多层衰减计算,可以合理有效地计算标签的影响度。为实体画像分析提供有力的支撑。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-01-04

    实质审查的生效 IPC(主分类):G06F17/15 专利申请号:2021111602688 申请日:20210930

    实质审查的生效

说明书

技术领域

本发明涉及网络安全技术领域,尤其涉及一种基于指数衰减的标签影响度计算方法及系统。

背景技术

在数字化浪潮下,各类信息化成果持续融入人们生活的方方面面,也深刻改变着信息技术环境。一方面,以物联网、云计算、大数据等为代表的新技术得到快速应用;另一方面,传统电力、交通等行业平台联入网络,成为关键信息基础设施的有机组成。伴随信息化而来的是网络边界逐渐模糊,网络安全问题愈发突出,越来越多的敏感数字信息遭受网络攻击被窃取。

目前,解决这一问题主要以SIEM(安全信息和事件管理)、UEBA(用户与实体行为分析)相关产品为主,其中实体画像技术作为一种核心分析手段完成实体行为刻画,实现实体威胁检测,进而辅助解决网络安全问题。

但是实体画像中标签的权重计算受行业影响较大,不同的行业、不同的标签影响度计算复杂多样,面对海量的实体标签历史数据,如何合理的衡量一个标签对于一个实体的影响度,将极大的影响标签对于后续行为分析的贡献度。

发明内容

本发明提供一种基于指数衰减的标签影响度计算方法,通过多层衰减计算,可以合理有效地计算标签的影响度。

方法包括:

步骤一,对所有的标签历史数据进行整理,形成固定格式的序列数据;

步骤二,利用指数衰减函数分别计算出初步影响度和基于时间的频次惩罚项因子;

步骤三,将初步影响度和频次惩罚因子求积再求和;

步骤四,通过sidmoid函数得到标签影响度。

进一步需要说明的是,步骤一中,每一条标签对应一个时间段,计算每个时间段与当前时间段的时间差,得到一个一维的时间序列L=[d1,d2,d3,d4,d5,…]。

进一步需要说明的是,若d1=0,则说明与当前间隔0天;若d1=1,则说明与当前间隔1个时间周期。

进一步需要说明的是,时间序列L作为衰减函数的输入,计算出每条标签的初步影响度,记为I=[I1,I2,I3,I4,I5,…]。

进一步需要说明的是,步骤三中,初步影响度的计算是将时间序列L作为输入,通过时间衰减函数得到一组离散的序列值。

进一步需要说明的是,初步影响度的序列为I=[(I1,d1),(I2,d1),(I3,d1),(I4,d2),(I5,d2),(I6,d3),…],则聚合后的结果为G=[(I1,d1,3),(I4,d2,2),(I6,d3,1),…]。

进一步需要说明的是,步骤三中,计算频次惩罚因子的方式包括:

将G中时间间隔、频次构成的数组对作为函数输入;

基于衰减函数式N(t)=N

λ:衰减因子,t表示时间,N

得到函数输出,输出即为对应的频次惩罚因子。

进一步需要说明的是,步骤四中,

取G中每个数组对应的标签初步影响度I,将I与对应的频次惩罚因子C相乘,再将乘积通过sigmoid函数产生一个(0,1)区间的输出值,该值则作为最终的标签影响度。

进一步需要说明的是,标签影响度的计算公式如下:

式中I表示最终的标签影响度;I

本发明还提供一种基于指数衰减的标签影响度计算系统,系统包括:数据整理模块、数据计算模块、数据求和模块以及标签影响度计算模块;

数据整理模块,用于对所有的标签历史数据进行整理,形成固定格式的序列数据;

数据计算模块,用于利用指数衰减函数分别计算出初步影响度和基于时间的频次惩罚项因子;

数据求和模块,用于将初步影响度和频次惩罚因子求积再求和;

标签影响度计算模块,用于通过sidmoid函数得到标签影响度。

从以上技术方案可以看出,本发明具有以下优点:

基于上述基于指数衰减的标签影响度计算方法,给出了分层的计算方案,实现了基于所评估标签历史数据的影响度绝对值评估,不依赖全量的标签历史数据,可用性较高。

本发明提出了针对标签初步影响度再次衰减的思路,并且将时间、频次作为二次衰减的自变量,解决了因历史标签数据密度过高导致的影响度不合理问题,具有较高的实用价值。

本发明通过多层衰减计算,可以合理有效地计算标签的影响度。为实体画像分析提供有力的支撑。

附图说明

为了更清楚地说明本发明的技术方案,下面将对描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为基于指数衰减的标签影响度计算方法流程图;

图2为基于指数衰减的标签影响度计算流程图;

图3为时间衰减函数曲线图;

图4为频次惩罚因子计算示意图;

图5为基于指数衰减的标签影响度计算系统示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提供的基于指数衰减的标签影响度计算方法及系统中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

本发明提供的基于指数衰减的标签影响度计算方法及系统的附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

在本发明提供的基于指数衰减的标签影响度计算方法及系统中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。

此外,本发明提供的基于指数衰减的标签影响度计算方法及系统中,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

如图1至4所示,本发明提供的基于指数衰减的标签影响度计算方法中构建了标签衰减函数。也就是说本发明先是建立了一种标签权重随时间减小的衰减函数,标签的权重可以称为标签的热度,权重越大,热度就越高。在该衰减函数中,标签热度衰减敏感度以天为单位,热度衰减因子控制标签衰减的速度,值越大表示衰减速度越快。

某个量的下降速度和它的值成比例,称之为服从指数衰减。本发明将指数衰减函数作为基本函数模型,其方程式如下:

N(t)=N

λ:衰减因子,t表示时间,N

进一步的讲,本发明进行了标签影响度的计算。其中,本发明基于标签记录和以天为单位统计的标签频次,提出了基于指数衰减的标签影响度计算方法。这里使用分层计算思路得出标签的影响度。首先计算出每条标签数据的初步影响度,然后以天为单位计算标签频次的惩罚因子,最后求标签初步影响度与频次惩罚因子的乘积,并将结果通过sidmoid函数得到最终的标签影响度。

本发明还对标签初步影响度进行了计算。

这里是对一固定标签来说,它的初始值是一维时间轴上一系列离散的点,每个点对应特定时刻的标签记录值。原始标签记录随着时间的延长其影响度逐渐降低,通过衰减函数会得到每个原始标签对应的衰减后的影响度。

本发明还对标签频次进行了聚合。原始标签是一维时间轴上离散分布的点,通过衰减函数得到的标签影响度也是一系列离散点。我们以天为单位,统计每天标签影响度的频次,得到每天对应的三个维度值,分别为标签影响度、时间跨度、标签频次。

本发明对标签影响度权值进行了计算。具体来讲:

(1)频次惩罚项计算。标签的频次越大,它所对应的影响越大。但我们希望,标签频次也能随着时间衰减,使得时间跨度比较大的标签频次对当前阶段影响更小。按天统计标签的频次衰减值。

(2)影响度计算。将标签的每个初始影响度与对应的频次惩罚项、频数相乘再求和,然后将结果作为自变量输入到sigmoid函数,得到(0,1)区间的值,该值为标签的最终影响度。

本发明通过对上述方案的设计与实施,实现了基于所评估标签历史数据的影响度绝对值评估,不依赖全量的标签历史数据,可用性较高。同时对不同行业的标签影响度计算给出了较为通用的计算方法,业务价值较高。

对于本发明涉及的基于指数衰减的标签影响度计算方法具体可以包括:

S101,对所有的标签历史数据进行整理,形成固定格式的序列数据;

其中,处理标签历史数据为:每一条标签对应一个时间段,计算每个时间段与当前时间段的时间差,得到一个一维的时间序列L=[d1,d2,d3,d4,d5,…]。

下面以天为例,当然可以根据实际需要时间段设置为周,天,小时等等。

每一条标签对应一个日期,计算每个日期与当前日期的时间差,以天为单位统计,得到一个一维的时间序列L=[d1,d2,d3,d4,d5,…]。若d1=0,则说明与当前间隔0天;若d1=1,则说明与当前间隔1天,即为昨天,以此类推。

S102,利用指数衰减函数分别计算出初步影响度和基于时间的频次惩罚项因子;

可以理解的是,本发明初步影响度计算过程是:由时间衰减理论易知,时间跨度越长,事件的热度越低,即影响度越低。图3为λ=0.08时的衰减函数,由图中可看出影响度会随着时间呈指数下滑。将第一步得到的序列标签L作为衰减函数的输入,计算出每条标签的初步影响度,记为I=[I1,I2,I3,I4,I5,…]。

本发明中,基于时间的频次聚合来讲,初步影响度的计算是将时间序列L作为输入,通过时间衰减函数得到一组离散的序列值。对时间序列L来说,序列中每个值(如d1)中可能对应多个标签点,那么会得到多个重复的初步影响度。为了避免过大的频次对最终影响度的干扰,我们以天为单位,统计初步影响度的重复值,即频次。假设初步影响度的序列为I=[(I1,d1),(I2,d1),(I3,d1),(I4,d2),(I5,d2),(I6,d3),…],则聚合后的结果为G=[(I1,d1,3),(I4,d2,2),(I6,d3,1),…]。

S103,将初步影响度和频次惩罚因子求积再求和;

步骤中,频次惩罚因子的计算方式为:一天内的标签点越多,初步影响度对应的频次就越大,过大的频次会加重时间间隔大的标签的影响度。为了避免上述情况的影响,我们基于时间对频次项进行惩罚计算。同样选择衰减函数式(1),函数输入为G中时间间隔、频次构成的数组对,函数输出为对应的频次惩罚因子,如图4所示。

S104,通过sidmoid函数得到标签影响度。

本发明中,标签影响度的计算方式为:

取G中每个数组对应的标签初步影响度I,将I与对应的频次惩罚因子C相乘,再将乘积通过sigmoid函数产生一个(0,1)区间的输出值,该值则作为最终的标签影响度。标签影响度的计算公式如下:

式中I表示最终的标签影响度;I

基于上述基于指数衰减的标签影响度计算方法,给出了分层的计算方案,实现了基于所评估标签历史数据的影响度绝对值评估,不依赖全量的标签历史数据,可用性较高。

本发明提出了针对标签初步影响度再次衰减的思路,并且将时间、频次作为二次衰减的自变量,解决了因历史标签数据密度过高导致的影响度不合理问题,具有较高的实用价值。

本发明整体思路清晰易懂,方案实现较为简单,对不同行业的标签影响度计算给出了较为通用的计算方法,业务价值较高。

基于上述基于指数衰减的标签影响度计算方法,本发明还提供一种基于指数衰减的标签影响度计算系统,如图5所示,系统包括:数据整理模块1、数据计算模块2、数据求和模块3以及标签影响度计算模块4;

数据整理模块1,用于对所有的标签历史数据进行整理,形成固定格式的序列数据;

数据计算模块2,用于利用指数衰减函数分别计算出初步影响度和基于时间的频次惩罚项因子;

数据求和模块3,用于将初步影响度和频次惩罚因子求积再求和;

标签影响度计算模块4,用于通过sidmoid函数得到标签影响度。

本发明提供的基于指数衰减的标签影响度计算系统是通过多层衰减计算,可以合理有效地计算标签的影响度。为实体画像分析提供有力的支撑。

本发明提供的基于指数衰减的标签影响度计算系统是结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

本发明提供的基于指数衰减的标签影响度计算系统及方法可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号