技术领域
本发明涉及语义索引领域,尤其是涉及一种基于潜在语义索引的上网行为分析方法、系统和介质。
背景技术
互联网给工作带来极大的便利,如果缺乏有效的管理,将会给业务带来各种风险,如信息泄漏、网络攻击、工作效率低下等。基于网页语义特征的用户上网行为分析以用户为视角,从规则分析转变为关联分析、行为建模、异常分析,基于大数据驱动、安全分析和机器学习,以用户为视角,通过刻画用户行为,将内部违规操作、窃取数据、非法删除等异常行为与正常行为进行关联分析,行为建模,准确地描述出行为细节,从而提高了命中异常事件的准确率,弥补了传统行为分析无法及时监测内部威胁的不足,有效分析用户上网的行为习惯,对用户上网实行监管。
目前针对用户上网行为分析,主要是采用基于规则和专家经验,对用户的上网历史日志进行增量式爬虫,将网页进行分析后匹配规则,通过人为设定阈值对行为进行检测,但是这种方法工作量大,会导致大量的噪声和误报。现有的上网行为分析技术一般通过利用机器学习驱动,从上网日志中发现异常的行为。但是目前该方法应用并不能确定具体的异常行为场景,对于异常上网行为不能实现有效管控。具体地,通过网页的URL类别进行划分,并对网页进行信息抽取,获得有效链接;然后对链接主题进行相关性判定,计算与主题有关的URL权重,建立URL的主题类别标签映射表。最后将用户上网行为产生的URL与所述映射表进行匹配,最终获得用户上网行为标签。以上采用URL的类别进行上网行为分析的方法依赖于类别判定规则,易受类别噪声干扰,标签的定义不能充分说明用户的行为异常。
发明内容
本发明的目的在于提供一种基于潜在语义索引的上网行为分析方案,以解决现有技术中存在的上述技术问题。该方案能够有效对上网日志数据进行分析,对网址的特征进行相关性计算,刻画用户上网行为画像,构建上网异常行为链,并采用机器学习深度挖掘潜在特征,识别出数据中的异常行为,并能够不断迭代、优化和持续改进,从而实现了及时应急响应和处置。
本发明第一方面提供了一种基于潜在语义索引的上网行为分析方法,所述方法包括:步骤S1、基于用户历史上网日志来确定所述用户的上网行为的潜在语义特征矩阵;步骤S2、利用所述潜在语义特征矩阵来计算所述用户的上网行为的行为链;以及步骤S3、根据所述行为链构建LSTM深度神经网络模型,以检测所述用户的异常上网行为。
根据本发明第一方面提供的方法,在所述步骤S1中:获取所述用户的历史上网日志中的URL和所述URL对应的网页文本;基于所述URL和所述URL对应的网页文本来确定网页语义特征矩阵,所述网页语义特征矩阵用于表征所述用户的上网行为特征;以及对所述网页语义特征矩阵进行奇异值分解和降维处理,来重构所述网页语义特征矩阵,以获得基于潜在语义空间的所述潜在语义特征矩阵;其中,对于所述网页语义特征矩阵,矩阵行为所述网页文本中的词语,矩阵列为所述URL,矩阵值为所述词语在所述URL中出现的频次。
根据本发明第一方面提供的方法,在所述步骤S2中,利用所述潜在语义特征矩阵来计算所述用户的上网行为基线;以及根据所述上网行为基线来确定所述用户的上网行为偏差,以构建所述用户的上网行为的行为链,其中所述行为链中的值为所述URL的行为偏差值。
根据本发明第一方面提供的方法,所述方法还包括,更新所述网页语义特征矩阵,将所述用户新访问的URL添加至所述网页语义特征矩阵。
本发明第二方面提供了一种基于潜在语义索引的上网行为分析系统,所述系统包括:确定模块,被配置为,基于用户历史上网日志来确定所述用户的上网行为的潜在语义特征矩阵;计算模块,被配置为,利用所述潜在语义特征矩阵来计算所述用户的上网行为的行为链;以及检测模块,被配置为,根据所述行为链构建LSTM深度神经网络模型,以检测所述用户的异常上网行为。
根据本发明第二方面提供的系统,所述确定模块具体被配置为:获取所述用户的历史上网日志中的URL和所述URL对应的网页文本;基于所述URL和所述URL对应的网页文本来确定网页语义特征矩阵,所述网页语义特征矩阵用于表征所述用户的上网行为特征;以及对所述网页语义特征矩阵进行奇异值分解和降维处理,来重构所述网页语义特征矩阵,以获得基于潜在语义空间的所述潜在语义特征矩阵;其中,对于所述网页语义特征矩阵,矩阵行为所述网页文本中的词语,矩阵列为所述URL,矩阵值为所述词语在所述URL中出现的频次。
根据本发明第二方面提供的系统,所述计算模块具体被配置为:利用所述潜在语义特征矩阵来计算所述用户的上网行为基线;以及根据所述上网行为基线来确定所述用户的上网行为偏差,以构建所述用户的上网行为的行为链,其中所述行为链中的值为所述URL的行为偏差值。
根据本发明第二方面提供的系统,所述系统还包括,更新模块,被配置为,更新所述网页语义特征矩阵,将所述用户新访问的URL添加至所述网页语义特征矩阵。
本发明第三方面提供了一种存储有指令的非暂时性计算机可读介质,当所述指令由处理器执行时,执行根据本发明第一方面的基于潜在语义索引的上网行为分析方法中的步骤。
综上,本方案能够有效对上网日志数据进行分析,对网址的特征进行相关性计算,刻画用户上网行为画像,构建上网异常行为链,并采用机器学习深度挖掘潜在特征,识别出数据中的异常行为,并能够不断迭代、优化和持续改进,从而实现了及时应急响应和处置。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例的基于潜在语义索引的上网行为分析方法的流程的示意图;以及
图2为根据本发明实施例的基于潜在语义索引的上网行为分析系统的结构图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明第一方面提供了一种基于潜在语义索引的上网行为分析方法。图1为根据本发明实施例的基于潜在语义索引的上网行为分析方法的流程的示意图,如图1所示,所述方法包括:步骤S1、基于用户历史上网日志来确定所述用户的上网行为的潜在语义特征矩阵;步骤S2、利用所述潜在语义特征矩阵来计算所述用户的上网行为的行为链;以及步骤S3、根据所述行为链构建LSTM深度神经网络模型,以检测所述用户的异常上网行为。
在步骤S1,基于用户历史上网日志来确定所述用户的上网行为的潜在语义特征矩阵。具体地,获取所述用户的历史上网日志中的URL和所述URL对应的网页文本;基于所述URL和所述URL对应的网页文本来确定网页语义特征矩阵,所述网页语义特征矩阵用于表征所述用户的上网行为特征;以及对所述网页语义特征矩阵进行奇异值分解和降维处理,来重构所述网页语义特征矩阵,以获得基于潜在语义空间的所述潜在语义特征矩阵;其中,对于所述网页语义特征矩阵,矩阵行为所述网页文本中的词语,矩阵列为所述URL,矩阵值为所述词语在所述URL中出现的频次。
将用户历史上网日志中的URL和对应的网页文本内容提取出来,建立网页语义特征矩阵X,矩阵中的行由网页中的词组成,矩阵中的列表示网页的URL,矩阵中的每个位置的值是该行对应的词在该列对应的URL中的词频,如表1所示。
表1
在步骤S2,利用所述潜在语义特征矩阵来计算所述用户的上网行为的行为链。具体地,利用所述潜在语义特征矩阵来计算所述用户的上网行为基线;以及根据所述上网行为基线来确定所述用户的上网行为偏差,以构建所述用户的上网行为的行为链,其中所述行为链中的值为所述URL的行为偏差值。
首先,对矩阵X进行SVD奇异值分解,得到X=U*S*V。将分解后的矩阵进行降维,保留矩阵S的前K个最大奇异值,得到矩阵S’,并依次获取U’和V’。其中,V’中的每行即为每个URL网页在潜在语义空间上的K维表示。基于U’、S’和V’重构网页语义特征矩阵X’=U’*S’*V’,其中X’的每一列为对应URL的潜在语义特征向量。
接下来,将当前用户的新访问URL按照X的每行对应词频进行编码,生成该URL的词频向量Q,并与特征矩阵X’进行计算,生成该URL的特征向量Q’=Q
其中,k为最相似的URL数量,Z为相似URL矩阵,1为长度为k的全1列向量。
随后,计算用户行为基线,将用户历史访问URL的特征向量计算平均值,得到用户的上网行为基线
其中,n为历史访问URL的数量,W为历史访问URL的矩阵,1为长度为n的全1列向量。
最后,基于用户行为基线计算访问URL的行为偏差:
基于行为偏差构成行为链,该行为链的每个值为对应时间访问的URL的行为偏差值。
在步骤S3,根据所述行为链构建LSTM深度神经网络模型,以检测所述用户的异常上网行为。具体地,基于用户行为链,构建LSTM深度学习模型,对用户上网日志进行异常行为检测。
在一些实施例中,所述方法还包括,更新所述网页语义特征矩阵,将所述用户新访问的URL添加至所述网页语义特征矩阵。具体地,更新语义特征矩阵X,将不包含在X的新URL添加至该矩阵中,并计算潜在语义特征矩阵。
综上,本公开第一方面的方法,首先采集大量用户上网行为日志数据,提取URL和对应网页的文本,并计算潜在语义特征矩阵。基于用户历史访问URL得到不同用户的历史URL集合,根据历史URL集合构建用户上网行为基线,并对用户访问URL历史生成上网行为链,最后搭建LSTM深度神经网络模型,该模型以用户的每次行为做单位,即代表对用户的多个连续上网行为进行预测。
本方法以大数据作为驱动,将用户访问的网址进行编码,计算行为特征向量,并构建上网行为基线,根据基线做出用户上网行为链,搭建深度学习模型,对用户异常行为进行研判,并对风险进行评估。其能够有效对上网日志数据进行分析,对网址的特征进行相关性计算,刻画用户上网行为画像,构建上网异常行为链,并采用机器学习深度挖掘潜在特征,识别出数据中的异常行为,并能够不断迭代、优化和持续改进,从而实现了及时应急响应和处置。
本发明第二方面提供了一种基于潜在语义索引的上网行为分析系统。图2为根据本发明实施例的基于潜在语义索引的上网行为分析系统的结构图,如图2所示,所述系统200包括:确定模块201,被配置为,基于用户历史上网日志来确定所述用户的上网行为的潜在语义特征矩阵;计算模块202,被配置为,利用所述潜在语义特征矩阵来计算所述用户的上网行为的行为链;以及检测模块203,被配置为,根据所述行为链构建LSTM深度神经网络模型,以检测所述用户的异常上网行为。
根据本发明第二方面提供的系统,所述确定模块201具体被配置为:获取所述用户的历史上网日志中的URL和所述URL对应的网页文本;基于所述URL和所述URL对应的网页文本来确定网页语义特征矩阵,所述网页语义特征矩阵用于表征所述用户的上网行为特征;以及对所述网页语义特征矩阵进行奇异值分解和降维处理,来重构所述网页语义特征矩阵,以获得基于潜在语义空间的所述潜在语义特征矩阵;其中,对于所述网页语义特征矩阵,矩阵行为所述网页文本中的词语,矩阵列为所述URL,矩阵值为所述词语在所述URL中出现的频次。
根据本发明第二方面提供的系统,所述计算模块202具体被配置为:利用所述潜在语义特征矩阵来计算所述用户的上网行为基线;以及根据所述上网行为基线来确定所述用户的上网行为偏差,以构建所述用户的上网行为的行为链,其中所述行为链中的值为所述URL的行为偏差值。
根据本发明第二方面提供的系统,所述系统200还包括,更新模块204,被配置为,更新所述网页语义特征矩阵,将所述用户新访问的URL添加至所述网页语义特征矩阵。
本发明第三方面提供了一种存储有指令的非暂时性计算机可读介质,当所述指令由处理器执行时,执行根据本发明第一方面的基于潜在语义索引的上网行为分析方法中的步骤。
综上,本公开涉及的各个方面能够有效对上网日志数据进行分析,对网址的特征进行相关性计算,刻画用户上网行为画像,构建上网异常行为链,并采用机器学习深度挖掘潜在特征,识别出数据中的异常行为,并能够不断迭代、优化和持续改进,从而实现了及时应急响应和处置。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
机译: 语义词典管理器,语义文本编辑器,语义术语注释器,语义搜索引擎和语义信息系统构建器,该方法基于立即定义语义术语的方法来识别每个单词的准确含义
机译: 基于模板自动机和潜在语义索引原则的计算机辅助内存翻译方案
机译: 基于模板自动机和潜在语义索引原则的计算机辅助内存翻译方案