首页> 中国专利> 日志行为分析的训练方法、身份安全风险预测方法

日志行为分析的训练方法、身份安全风险预测方法

摘要

本发明公开了一种日志行为分析的训练方法及预测方法,其训练方法,包括:对日志数据进行结构化处理,获得各种单一行为的日志数据;对每种单一行为的日志数据进行标注,标注出日志行为;根据设定的评分标准,对所有日志行为进行风险评分;将标注好的日志数据有序输入到训练模型中,进行训练;获得预测日志行为的预测模型。本发明利用机器学的方式代替了传统的规则分析方式,能够全自动化、更智能、更全面地对日志行为进行智能化地分析。

著录项

  • 公开/公告号CN112800666A

    专利类型发明专利

  • 公开/公告日2021-05-14

    原文格式PDF

  • 申请/专利权人 上海派拉软件股份有限公司;

    申请/专利号CN202110061430.4

  • 发明设计人 王军;张毅骏;谭翔;

    申请日2021-01-18

  • 分类号G06F30/27(20200101);G06K9/62(20060101);G06Q10/06(20120101);G06F16/215(20190101);

  • 代理机构31251 上海硕力知识产权代理事务所(普通合伙);

  • 代理人林晓青

  • 地址 200135 上海市浦东新区张东路1388号27幢102室

  • 入库时间 2023-06-19 10:58:46

说明书

技术领域

本发明涉及信息安全技术领域,特别是涉及日志行为分析的训练方法、身份安全风险预测方法。

背景技术

随着社会的发展,个人计算机与其他智能设备的普及,数字时代的到来,人们的生活、工作、以及金融服务等都离不开网络,因此其资产越来越依赖于互联网,从而对人们的隐私带来的挑战越来越突出。在这种大背景下,对访问的身份认证,保证访问的身份安全就直接影响到资产的安全,隐私的安全等。

现有的技术主要是通过规则设定,然后利用规则分析来进行风险识别,这种方法对强信号的安全事件,比如恶意软件,阻断服务攻击(Denial of Service Attack)和分布式阻断服务攻击(Distributed Denial of Service Attack)等的识别能力比较有效。

但是,现有技术对弱信号的安全事件,比如低频渗透(Low DensityPenetration),高级持续威胁(Advanced Persistent Threats)和一些基于算法的攻击等的识别能力不够理想,其原因是弱信号的安全事件往往比较复杂,对于基于算法的攻击,其规则分析无法适应算法变化带来的新情况,从而无法判别访问的身份安全风险。

发明内容

为克服上述现有技术存在的不足,本发明之目的在于提供一种日志行为分析的训练方法、身份安全风险预测方法,能够全自动、智能、全面的评估访问的身份安全的风险。

为达上述及其它目的,本发明提出一种日志行为分析的训练方法,包括:

对日志数据进行结构化处理,获得各种单一行为的日志数据;

对每种单一行为的日志数据进行标注,标注出日志行为;

根据设定的评分标准,对所有日志行为进行风险评分;

将标注好的日志数据有序输入到训练模型中,进行训练;

获得预测日志行为的预测模型。

进一步地,所述训练模型为隐马尔科夫模型。

进一步地,对日志数据进行结构化处理,获得各种单一行为的日志数据包括:

对日志数据进行清洗;

将日志数据按设定的分隔符分割成各种单一行为的日志数据。

本发明还公开一种基于日志行为的身份安全风险预测方法,包括步骤:

将新生成的日志数据实时输入到预测模型中;

预测模型根据该新生成的日志数据进行处理,获得日志行为;

根据设定的行为评分表,得出日志行为的评分结果;

根据评分结果判断是否属于风险访问。

进一步地,所述预测模型为上述方法训练获得的预测模型。

进一步地,根据评分结果判断是否属于风险访问之后还包括步骤:

若访问的评分结果在评分表可接受的范围,则允许访问;

若访问的评分结果不在评分表可接受的范围,则拒绝访问。

进一步地,若访问的评分结果不在评分表可接受的范围,则拒绝访问的步骤还包括:

将该拒绝访问的信息加入到预警库中;

对该拒绝访问的信息进行分析以及核实。

本发明还公开一种基于日志行为的身份安全风险预测方法,包括:

训练阶段:包括对日志数据进行清洗以及结构化处理,并输入到训练模型中进行训练,获得预测模型;

预测阶段:预测模型对新的日志数据进行处理,并预测出该访问的身份是否属于安全访问。

进一步地,所述训练模型为隐马尔科夫模型。

本发明还公开一种电子设备,所述系统包括处理器以及存储器,

所述存储器用于存储可执行程序;

所述处理器用于执行所述可执行程序以实现上述任意一所述的方法。

与现有技术相比,本发明具有如下有益效果:

一、本发明利用机器学的方式代替了传统的规则分析方式,能够全自动化、更智能、更全面地对日志行为进行智能化地分析。

二、本发明的训练模型使用隐马尔科夫模型来进行训练,隐马尔科夫模型可以通过学习日志中的数据,理解日志上下文的逻辑关系,从而解析日志各个行为之间的目的与关联性,完整地学习日志的内容,从而全自动更智能更全面地评估身份安全的风险。

附图说明

图1为本发明实施例的一种日志行为分析的训练方法流程示意图;

图2为本发明实施例的一种基于日志行为的身份安全风险预测方法流程示意图;

图3为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本公开,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图中将各步骤描述成顺序的处理,但是其中的许多步骤可以并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排,当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图内的其它步骤。处理可以对应于方法、函数、规程、子例程、子程序等。

实施例一

图1为本发明实施例的一种日志行为分析的训练方法流程示意图,包括:

在步骤S10中,对日志数据进行结构化处理,获得各种单一行为的日志数据。

在大规模信息系统中,日志数据是基础又重要的部分数据,在本申请中,对日志数据进行操作或者处理,其包含的意思或者概念也包括对日志文件进行操作或者处理。通常来说,采集或者存储的日志数据,有的日志数据是结构化的日志数据,但大部分都是非结构化的日志数据或者日志文件,因此,对于非结构化的日志数据或者日志文件,需要对其进行结构化的处理。

进一步地,针对不同的数据挖掘或者分析的目的,不是所有的日志数据都需要全部进行处理,因此,作为本申请更优选的的一种实施方式,在进行结构化处理的过程中,包括先对日志数据进行数据清洗,数据清洗是数据分析过程中重要的一环,其结果质量直接关系到后面的模型训练以及数据分析结果。

具体的数据清洗包括格式内容的清洗以及逻辑错误的清洗,格式内容的清洗包括时间、日期、数值等格式不一致等的清洗,以及内容不付等的清洗。逻辑错误包括去重、修正一些矛盾内容等。

在完成了数据清洗之后,将各种访问行为进行分类,对于各种访问产生的日志数据,将日志数据进行分类,本申请按设定的分隔符分割成各种单一行为的日志数据。

步骤S11:对每种单一行为的日志数据进行标注,标注出日志行为;

在分类得出各种单一行为的日志数据之后,每种单一行为的日志数据进行标注,标注出每一种日志数据代表的日志行为或者访问身份的特征。

步骤S12:根据设定的评分标准,对所有日志行为进行风险评分。

上述步骤S11对每一种日志行为进行标注之后,每一种日志数据所代表的日志行为的特征或者访问身份证特征已经得到,然后对照设定的评分标准,即可获得每一种日志行为的风险级别,从而获得每一种日志行为的评分值。

根据每一种日志行为,可以得知每一种日志行为是否是否属于风险的日志,进而得知产生该日志数据的访问信息是否属于安全的访问还是恶意的访问。

步骤S13:将标注好的日志数据有序输入到训练模型中,进行训练。

用户访问的行为都可以从日志中分析得到,但为了身份安全风险控制具备自动化和智能化这两个特点,需要建立合适的机器学习模型对日志进行训练,学习得到有用的信息。总的来说,日志分析,对日志中所涉及的行为的分析是身份安全风险控制的一种有效途径。

将上述标注好的日志数据有序输入到训练模型中,设定期望值,进行训练,本申请中,选择隐马尔科夫模型作为训练模型,利用马尔科夫链对数据进行建模。

假设数据是一个有限的满足马尔科夫链性质的有序随机变量组成的序列 (X

本申请中,使用隐马尔科夫模型对日志行为进行分析是基于现有技术的不足,提出本申请的解决方案。隐马尔科夫模型可以通过学习日志中的数据,理解日志上下文的逻辑关系,从而解析日志各个行为之间的目的与关联性,可以完整的学习日志的内容,从而能够全自动、更智能、更全面的评估访问的身份安全的风险。

步骤S14:获得预测日志行为的预测模型。

在训练完成后,获得预测模型,即可使用该预测模型来对新日志进行预测判断。

实施例二

基于上述实施例一获得的预测模型,可以用来对新的访问进行身份是否属于风险访问进行识别,其步骤包括:

S20:将新生成的日志数据实时输入到预测模型中。

实际的实施过程中,在得到预测日志行为的预测模型之后,即可将这个预测模型部署到使用的环境中。

S21:预测模型根据该新生成的日志数据进行处理,获得日志行为;

S22:根据设定的行为评分表,得出日志行为的评分结果;

行为评分表可根据实际的访问情况,设定有多个风险等级,比如划分设定为无风险、白名单、低风险、中风险以及高危险等,具体的风险等级的划分可以认为设定好,或者基于过往的数据积累总结的,也可以通过算法来不断调整或优化划分的标准。

S23:根据评分结果判断是否属于风险访问,进一步地,若访问的评分结果在评分表可接受的范围,则允许访问;若访问的评分结果不在评分表可接受的范围,则拒绝访问。

此外,作为一种更优选的实施方式,通过预测模型的智能预测得到,虽然具有全自动、智能化的判断能力,为了进一步进行数据挖掘,还需要对拒绝访问的信息进行深入的分析和排除,以便进一步优化算法,改善系统的预测能力,本实施例还包括将该拒绝访问的信息加入到预警库或者黑名单中,或者实时对于拒绝访问的信息及时报警,并对该拒绝访问的信息进行分析以及核实,若为算法错误的判断,则可以进一步优化算法、修改参数优化模型等。

基于上述实施例一以及实施例二,本申请还公开一种基于日志行为的身份安全风险预测方法,同时包括训练阶段和预测阶段,其中,

训练阶段:包括对日志数据进行清洗以及结构化处理,并输入到训练模型中进行训练,获得预测模型,具体实施的技术方案请参阅上述实施例一,不再详述。

预测阶段:预测模型对新的日志数据进行处理,并预测出该访问的身份是否属于安全访问,具体实施的技术方案请参阅上述实施例二,不再详述。

此外,请参阅图3,图3为本发明实施例提供的一种电子设备的结构示意图,可以理解的是,图1-图2所示的方法可应用于图3所示的电子设备中,所述电子设备包括处理器以及存储器。

如图3所示,电子设备包括处理器30(处理器30的数量可以一个或多个,图3以一个处理器为例)以及存储器31。在本发明的实施例中,处理器30、存储器31可通过总线或其它方式连接,其中,图3中以通过总线连接为例。

其中,存储器31中存储有可执行程序,处理器30执行所述可执行程序以实现上述实施例的方法或步骤。

将意识到的是,本公开也扩展到适合于将本公开付诸实践的计算机程序,特别是载体上或者载体中的计算机程序。程序可以以源代码、目标代码、代码中间源和诸如部分编译的形式的目标代码的形式,或者以任何其它适合在按照本公开的方法的实现中使用的形式。也将注意的是,这样的程序可能具有许多不同的构架设计。例如,实现按照本公开的方法或者系统的功能性的程序代码可能被再分为一个或者多个子例程。

用于在这些子例程中间分布功能性的许多不同方式将对技术人员而言是明显的。子例程可以一起存储在一个可执行文件中,从而形成自含式的程序。这样的可执行文件可以包括计算机可执行指令,例如处理器指令和/或解释器指令 (例如,Java解释器指令)。可替换地,子例程的一个或者多个或者所有子例程都可以存储在至少一个外部库文件中,并且与主程序静态地或者动态地(例如在运行时间)链接。主程序含有对子例程中的至少一个的至少一个调用。子例程也可以包括对彼此的函数调用。涉及计算机程序产品的实施例包括对应于所阐明方法中至少一种方法的处理步骤的每一步骤的计算机可执行指令。这些指令可以被再分成子例程和/或被存储在一个或者多个可能静态或者动态链接的文件中。

另一个涉及计算机程序产品的实施例包括对应于所阐明的系统和/或产品中至少一个的装置中每个装置的计算机可执行指令。这些指令可以被再分成子例程和/或被存储在一个或者多个可能静态或者动态链接的文件中。

计算机程序的载体可以是能够运载程序的任何实体或者装置。例如,载体可以包含存储介质,诸如(ROM例如CDROM或者半导体ROM)或者磁记录介质(例如软盘或者硬盘)。进一步地,载体可以是可传输的载体,诸如电学或者光学信号,其可以经由电缆或者光缆,或者通过无线电或者其它手段传递。当程序具体化为这样的信号时,载体可以由这样的线缆或者装置组成。可替换地,载体可以是其中嵌入有程序的集成电路,所述集成电路适合于执行相关方法,或者供相关方法的执行所用。

应该留意的是,上文提到的实施例是举例说明本公开,而不是限制本公开,并且本领域的技术人员将能够设计许多可替换的实施例,而不会偏离所附权利要求的范围。在权利要求中,任何放置在圆括号之间的参考符号不应被解读为是对权利要求的限制。动词“包括”和其词形变化的使用不排除除了在权利要求中记载的那些之外的元素或者步骤的存在。在元素之前的冠词“一”或者“一个”不排除复数个这样的元素的存在。本公开可以通过包括几个明显不同的组件的硬件,以及通过适当编程的计算机而实现。在列举几种装置的装置权利要求中,这些装置中的几种可以通过硬件的同一项来体现。在相互不同的从属权利要求中陈述某些措施的单纯事实并不表明这些措施的组合不能被用来获益。

如果期望的话,这里所讨论的不同功能可以以不同顺序执行和/或彼此同时执行。此外,如果期望的话,以上所描述的一个或多个功能可以是可选的或者可以进行组合。

如果期望的话,上文所讨论的各步骤并不限于各实施例中的执行顺序,不同步骤可以以不同顺序执行和/或彼此同时执行。此外,在其他实施例中,以上所描述的一个或多个步骤可以是可选的或者可以进行组合。

虽然本公开的各个方面在独立权利要求中给出,但是本公开的其它方面包括来自所描述实施方式的特征和/或具有独立权利要求的特征的从属权利要求的组合,而并非仅是权利要求中所明确给出的组合。

这里所要注意的是,虽然以上描述了本公开的示例实施方式,但是这些描述并不应当以限制的含义进行理解。相反,可以进行若干种变化和修改而并不背离如所附权利要求中所限定的本公开的范围。

本领域普通技术人员应该明白,本公开实施例的装置中的各模块可以用通用的计算装置来实现,各模块可以集中在单个计算装置或者计算装置组成的网络组中,本公开实施例中的装置对应于前述实施例中的方法,其可以通过可执行的程序代码实现,也可以通过集成电路组合的方式来实现,因此本公开并不局限于特定的硬件或者软件及其结合。

本领域普通技术人员应该明白,本公开实施例的装置中的各模块可以用通用的电子设备来实现,各模块可以集中在单个电子设备或者电子设备组成的装置组合中,本公开实施例中的装置对应于前述实施例中的方法,其可以通过编辑可执行的程序代码实现,也可以通过集成电路组合的方式来实现,因此本公开并不局限于特定的硬件或者软件及其结合。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号