首页> 中国专利> 基于智能分析技术的网站内容监测和自动化响应防护方法

基于智能分析技术的网站内容监测和自动化响应防护方法

摘要

本发明公开了一种基于智能分析技术的网站内容监测和自动化响应防护方法,涉及电子数据处理技术领域,所述方法包括:检测受保护的网站的受攻击行为,其中,所述监测包括:针对目标公司内的互联网应用的web日志检测及webshell检测,以及对网站内容、文本内容及新增页面的篡改检测;根据受保护的网站的不同的受攻击行为建立对应的应急场景,当监测到所述受攻击行为的任一种情况,对应的所述应急场景自动响应。本发明解决运维人员专业安全分析能力不足的问题,并协助安全事件取证及事后追溯。

著录项

  • 公开/公告号CN112560029A

    专利类型发明专利

  • 公开/公告日2021-03-26

    原文格式PDF

  • 申请/专利号CN202011560810.4

  • 发明设计人 谭威龙;张烜;靳晓琪;

    申请日2020-12-25

  • 分类号G06F21/55(20130101);G06F21/56(20130101);G06F21/57(20130101);G06N3/04(20060101);G06N3/08(20060101);G06N20/00(20190101);

  • 代理机构44001 广州科粤专利商标代理有限公司;

  • 代理人邓潮彬;黄培智

  • 地址 510670 广东省广州市黄埔区科学城科学大道223号1号楼

  • 入库时间 2023-06-19 10:24:22

说明书

技术领域

本发明涉及电子数据处理技术领域,具体涉及一种基于智能分析技术的网站内容监测和自动化响应防护方法。

背景技术

随着全球信息化浪潮勃兴和信息社会发展进程加速发展,近些年来世界各国面临的网络安全威胁度也在同步增加,例如Struts2漏洞导致很多国家网络服务器遭受致命威胁,Bash破壳漏洞凸显Linux类系统安全隐患,Havex病毒遍历能源行业网络系统,伊朗神秘黑客组织“Andishan”入侵多国网络系统,苹果手机应用感染“XcodeGhost”病毒,“HackingTeam”黑客军火库数据遭泄露等。尤其是“棱镜门事件”爆发以后,基于国家利益博弈的网络安全议题成为世界各国观众的热点。

在当前网络安全环境“内忧外患”的情况下,用户单位内各类发布于互联网环境的网页网站成为受攻击较为严重的目标之一,因网页内容篡改进行宣扬邪教、散布谣言、散布淫秽、色情、赌博等非法内容的行为时有发生,对社会造成了各种不良影响,甚至会危害国家安全。

针对互联网环境下可能发生的危害国家及相关单位公众形象的网页篡改等恶意行为,现有技术目前采用web防火墙等防护手段,但这种防护手段过于单一,无法快速响应复杂网页篡改行为的现状,需要加强对互联网网页防篡改技术的研究。

发明内容

针对现有技术中的不足,本发明提供一种基于智能分析技术的网站内容监测和自动化响应防护方法,有效解决互联网应用的网站内容安全,可及时发现网站攻击行为及网络篡改行为,当监测发现网页篡改行为时将自动关停网站,可避免非法篡改行为所造成的不良影响,有效提升网站安全整体防御效果,

为实现上述目的,本发明的技术方案如下:

一种基于智能分析技术的网站内容监测和自动化响应防护方法,其特征在于,包括:

检测受保护的网站的受攻击行为,其中,所述监测包括:针对目标公司内的互联网应用的web日志检测及webshell检测,以及对网站内容、文本内容及新增页面的篡改检测;

根据受保护的网站的不同的受攻击行为建立对应的应急场景,当监测到所述受攻击行为的任一种情况,对应的所述应急场景自动响应。

如上所述的基于智能分析技术的网站内容监测和自动化响应防护方法,进一步的,所述web日志检测包括:

接收Web服务器的Syslog客户端提交的Web应用日志;

对Web应用日志进行基于深度学习的数据挖掘以及对所有范式化后的web应用日志进行安全事件关联性分析。

如上所述的基于智能分析技术的网站内容监测和自动化响应防护方法,进一步的,所述webshell检测包括:基于人工智能技术建立webshell检测分析引擎,其中,人工智能技术包括专家系统、人工神经网络、模糊检测技术和Agent技术。

如上所述的基于智能分析技术的网站内容监测和自动化响应防护方法,进一步的,检测受保护的网站的受攻击行为采用DPI和DFI结合的攻击监测与感知技术。

如上所述的基于智能分析技术的网站内容监测和自动化响应防护方法,进一步的,数据采用基于多源异构处理框架,通过关系型数据库技术和分布式分析系统建立大数据分析模型平台。

如上所述的基于智能分析技术的网站内容监测和自动化响应防护方法,进一步的,所述篡改检测包括:

利用Libra爬虫技术获得目标网站当前的图片资源;

将目标网站使用过的全部图片资源用卷积神经网络算法转换成第一模型;

检测到修改或新增的图片资源后,将其转换成第二模型并与之前的第一模型进行比对,同时,通过将第二模型与安全厂商提供的威胁情报中的FG图片模型比对,以发现网站被篡改的图片。

如上所述的基于智能分析技术的网站内容监测和自动化响应防护方法,进一步的,采用基于内核驱动保护技术、动态网页脚本保护技术和连续篡改攻击保护技术防止网站内容被篡改。

如上所述的基于智能分析技术的网站内容监测和自动化响应防护方法,进一步的,将威胁数据筛选出攻陷指标作为可机读威胁情报,并且使用现存的日志对比匹配形成趋势或线索,以指导安全响应并进行攻击行为阻断。

如上所述的基于智能分析技术的网站内容监测和自动化响应防护方法,进一步的,采用SOAR技术建立应急场景自动响应,其中,SOAR技术帮助收集web安全监控到的信息,并对收集到的信息进行事件分析和告警分诊,在标准工作流程的指引下,利用人机结合的方式帮助安全运维人员定义、排序和驱动标准化的事件响应活动。

如上所述的基于智能分析技术的网站内容监测和自动化响应防护方法,进一步的,对于检测到网站内容被篡改后,将可信备份路径下的网页内容快速恢复到相应文件夹。

本发明与现有技术相比,其有益效果在于:

1、围绕web日志检测及webshell检测的问题,将进行开展以下研究工作:

一方面,将针对超高压公司内互联网应用的海量web日志,研究通过标准Syslog协议接口,接收Web服务器的Syslog客户端提交的海量Web应用日志,借助大数据分析平台并结合Web攻击AI检测引擎,对海量的web日志进行综合关联性分析,全局展现并及时发现超高压公司所有对外网站的运行异常状况。

另一方面,将针对当前webshell安全检测的问题,将基于AI(人工智能)技术,对Webshell检测进行技术研究与检测优化,研发相应的Webshell检测引擎,解决传统Webshell查杀引擎面临的各种Webshell绕过问题,提升对网站安全性的检测能力。

2、针对篡改防护技术的研究则会着重于对网站内容、文本内容及新增页面的篡改检测为主。对于网站内容篡改的检测技术研究工作,重点引入AI(人工智能)技术,将目标网站使用过的全部图片资源用CNN(卷积神经网络)算法转换成模型,发现修改或新增的图片资源后,将其转换成模型并与之前的模型进行比对,以发现可疑新增的图片。同时,通过将修改或新增的图片模型与安全厂商提供的威胁情报中的FG图片模型比对,以实现从外部主动检测并发现网站被篡改的图片。

3、对于文本内容的篡改检测技术研究工作,主要通过抓取目标网站返回的页面内容,结合高效缓存分析技术,获取页面差异内容,并将该部分内容与安全厂商提供的威胁情报所提取出FG等非法内容进行比对,实现主动检测并发现被篡改的网页内容,实现在网站内容被篡改后,可立即发现被篡改痕迹,产生告警送往处置平台,平台自动采取相应的响应措施。对于新增页面篡改检测技术研究工作,核心要点在于对采集到的Web日志需进行实时分析,针对被返回状态码一直是404或403的目标文件,在响应某个用户请求时返回了状态码2000K,通过与前端的WAF等网站防护设备的告警数据综合分析,可实现主动发现网站被新增篡改页面的情况。

4、研究根据Web网站实际环境,建模不同网站篡改应急场景,支持用户设定自定义自动响应策略,与目标网站前端网络设备或安全防护部件如防火墙进行联动,实现诸如网站一键关停或者网站访问不可达的自动化响应措施,不断提高网站篡改事件的自动化响应效率。

5、研究监测到网站页面内容被篡改(包括内部监测和外部检测)后阻止当前页面内容返回给访客并快速自动从发布部服务器同步原始正常页面内容的技术,避免因被篡改后的页面内容被访问带来的负面影响。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图进行简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例的方法流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

实施例:

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,本发明实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

一种基于智能分析技术的网站内容监测和自动化响应防护方法,包括:

检测受保护的网站的受攻击行为,其中,所述监测包括:针对目标公司内的互联网应用的web日志检测及webshell检测,以及对网站内容、文本内容及新增页面的篡改检测;

根据受保护的网站的不同的受攻击行为建立对应的应急场景,当监测到所述受攻击行为的任一种情况,对应的所述应急场景自动响应。

作为一种可选的实施方式,在某些实施例中,所述web日志检测包括:接收Web服务器的Syslog客户端提交的Web应用日志;对Web应用日志进行基于深度学习的数据挖掘以及对所有范式化后的web应用日志进行安全事件关联性分析。

具体地,深度学习是机器学习研究的一个新领域,基于神经网络建立模拟人脑分析、学习的模型,模仿人脑机制识别目标,感知信息。深度学习是以建立深层结构化模型为目标的机器学习,一般约定模型至少包含三个隐层。这种多隐层结构的网络用普通神经网络的训练算法。

在本发明中,针对网络安全风险智能分析研究,究其本质实际上是一个从web多种日志数据获得有价值信息的数据挖掘过程,因此web应用异常行为分析算法可以参考数据挖掘和分析学科中的方法,并结合web应用行为自身的业务特点,基于数据分析工作和数学算法量化基线,建立模型,计算输出各种异常行为场景。常见的数据挖掘和分析方法包括分类、聚类、回归分析(多元回归、自同归等)、判别分析、探索性分析(主元分析法、相关分析法等)、用户特征分析、关联分析、TopN分析等。

本发明的核心是机器学习,通过各种机器学习算法挖掘各种web应用异常行为模式。机器学习方法可细分为统计学习方法、归纳学习方法(决策树、规则归纳等)、基于实例学习、遗传算法等;从学习形式上可以分为有监督和无监督学习。

本发明分析使用有监督和无监督的机器学习技术来检测和识别前期没有发现的异常行为模式。有监督式学习模式基于大量真实的样本数据,应用于快速发现未知异常;无监督的机器学习方法保证了系统的自我学习,不断调整和精确识别未知异常。

本发明借助先进的智能事件关联分析引擎,能够实时不间断地所有范式化后的Web日志流进行安全事件关联分析,使受保护的网站具备基于智能规则的事件关联分析能力。

同时,本发明提供了智能化的规则编辑器,用户可以定义基于逻辑表达式和统计条件的关联规则,所有日志字段都可参与关联。在关联事件的时候,又可以分为单事件关联和多事件关联。

作为一种可选的实施方式,在某些实施例中,基于人工智能技术建立webshell检测分析引擎,其中,人工智能技术包括专家系统、人工神经网络、模糊检测技术和Agent技术。

人工智能在基于Web安全智能分析评估研究方面占有重要的一席之地。在本发明中主要应用的人工智能技术有以下几种:

(1)专家系统,所谓专家系统就是一种在相关领域中具有专家解题能力的智能程序系统,它能运用该领域专家多年积累的经验与知识,模拟人类的思维过程,求解需要专家才能解决的困难问题。系统管理员将一些已知的入侵特征编码成规则,构成规则库,通过将审计记录与规则相匹配来检测入侵。专家系统虽然简单,但是由于入侵方式的不断增加,规则库的不断扩大,需要匹配的数据量不断增加,实时的检测将变得愈来愈困难,直到最终的不能应用。离线的处理由于数据量太大,所花时间太多,作用将被削弱。

(2)人工神经网络,人工神经网络是在生物神经网络研究的基础上建立起来的,是对脑神经系统结构和功能的模拟,具有学习能力、记忆能力、计算能力以及智能处理功能。人工神经网络的优点是具有较强的容错性,能够识别带噪声或变形的输入模式,具有很强的自适应能力;可以进行并行分布式信息存储与处理,识别速度快。能把识别处理和若干预处理融为一体进行。神经网络被应用到入侵检测中,建立了基于时间序列的预测模型,自基于系统调用的方法出现后,把神经网络应用到学习程序轨迹的局部模式,这种模式比以前的方法更加精确和简洁,而且与用户反复无常更改其习惯无关,同时也能克服恶意用户为了被编码到正常轮廓中去而故意改变其行为的缺点。虽然利用神经网络可以提高入侵检测的性能,但是由于神经网络固有的缺点,它不能够对检测到的数据作出解释。

(3)模糊检测技术,多数的模糊检测模型认为异常检测中的“异常”实质是—个模糊概念,因为检测对象的行为是如此复杂。以至于无法给“异常”下准确的定义。异常检测的目的是发现“异常”的行为,然后根据“异常”的程度来决定该行为是否是入侵行为。这种思路用模糊数学来描述非常适合。此类算法的优点是检测模型的建立对训练数据的要求不高,而且检测模型一旦建立就比较稳定,不需要频繁地重新学习和建立就能达到较为满意的检测率和较低的误报率,而这也是以往的异常检测方法所缺乏的。采用模糊综合评判作为检测算法,其特点就是能将比较复杂、模糊性强的问题用精确的数学工具来解决,从而获得比较精确的结果。

(4)Agent技术,在人工智能技术中对于知识的表达方式主要有语义网络模式、框架表示模式、规则产生模式和面向对象的表示等方法。而最近提出的面向Agent技术是面向对象技术在人工智能领域的发展。

作为一种可选的实施方式,在某些实施例中,检测受保护的网站的受攻击行为采用DPI和DFI结合的攻击监测与感知技术。

传统的安全数据采集受限于网络通信的同步和阻塞的限制,为了提升性能,先进的事件采集算法都充分利用了异步和非阻塞的方式,但是性能还是难以满足大规模事件处理的需要。

本发明在使用异步非阻塞机制的基础上,设计出了独有的DPI和DFI相融合的技术路线,通过并行计算算法,极大地提升了事件接收和存储的速度。同时确保了事件处理的时序流程,避免了在纯异步模式下容易出现“事件漏存”的情况发生。

DPI全称为“Deep Packet Inspection”,称为“深度包检测”。DPI技术在分析包头的基础上,增加了对应用层的分析,是一种基于应用层的流量检测和控制技术。当IP数据包、TCP或UDP数据流经过基于DPI技术的流量管理系统时,该系统通过深入读取IP包载荷的内容来对OSI 7层协议中的应用层信息进行重组,从而得到整个应用程序的内容,然后按照系统定义的管理策略对流量进行整形操作。

针对不同的协议类型,DPI识别技术可划分为以下三类:

(1)基于“特征字”的识别技术:不同的应用通常依赖于不同的协议,而不同的协议都有其特殊的“指纹”,这些“指纹”可能是特定的端口、特定的字符串或者特定的bit序列。

(2)应用层网关识别技术:某些业务的控制流和业务流是分离的,业务流没有任何特征。应用层网关需要先识别出控制流,并根据控制流的协议通过特定的应用层网关对其进行解析,从协议内容中识别出相应的业务流。

(3)行为模式识别技术:行为模式识别技术基于对终端已经实施的行为进行分析,判断出用户正在进行的动作或者即将实施的动作。

DFI(Deep/Dynamic Flow Inspection,深度/动态流检测)与DPI进行应用层的载荷匹配不同,采用的是一种基于流量行为的应用识别技术,即不同的应用类型体现在会话连接或数据流上的状态各有不同。

由于DPI技术与DFI技术实现机制不同,技术融合的应用主要基于如下机制实现:

(1)采用DPI技术由于要逐包进行拆包操作,并与后台数据库进行匹配对比;采用DFI技术进行流量分析仅需将流量特征与后台流量模型比较即可。

(2)基于DPI技术的带宽管理系统,总是滞后新应用,需要紧跟新协议和新型应用的产生而不断升级后台应用数据库,否则就不能有效识别、管理新技术下的带宽,提高模式匹配效率;而基于DFI技术的系统在管理维护上的工作量要少于DPI系统,因为同一类型的新应用与旧应用的流量特征不会出现大的变化,因此不需要频繁升级流量行为模型。

(3)由于DPI采用逐包分析、模式匹配技术,因此,可以对流量中的具体应用类型和协议做到比较准确的识别;而DFI仅对流量行为分析,因此只能对应用类型进行笼统分类,如对满足P2P流量模型的应用统一识别为P2P流量。如果数据包是经过加密传输的,则采用DPI方式的流控技术则不能识别其具体应用,而DFI方式的流控技术则不受影响,因为应用流的状态行为特征不会因加密而根本改变。

作为一种可选的实施方式,在某些实施例中,数据采用基于多源异构处理框架,通过关系型数据库技术和分布式分析系统提供数据保存系统。

目前海量的实时数据无法得到有效的关联分析,会产生漏报和误报,导致无法有效发现安全攻击。历史数据无法得到有效的分析,采用关系型数据库技术在对海量数据进行历史查询和检索时耗时很长,生成报表往往需要耗费数小时,这些已无法满足安全分析人员日常的安全工作的要求。

针对以上问题,拟采用了基于多源异构处理框架,通过关系型数据库技术和分布式分析系统(HDFS)结合建立安全可靠的大数据分析模型平台。

(1)大数据的采集

平台通过分布式部署的安全事件采集器高速采集安全事件,采集器对采集到的原始安全数据和事件进行预处理,包括泛化、过滤和归并,并将其发送至大数据分析平台。

(2)大数据的存储

关系数据库和分布式文件系统保存收到的结构化的事件和原始事件,通过分布式存储节点,将其保存至分布于平台中各节点中的文件系统中,并通过专用的数据库适配工具实现结构化数据和非结构化数据的转换。分布式文件系统采用冗余式保存技术,实现了安全数据的安全存储,每个节点上的数据都在其他节点上有备份,一旦节点损坏并不会对数据造成影响,系统会重新分配数据。

(3)大数据的分析

大数据分析技术提供了强大的安全事件分析方法,包括基于特征的、基于行为的、基于统计的和基于机器学习的自动化和半自动化分析方法。这些分析方法自动地对采集来的数据进行实时和历史分析。

1)大数据分析技术采用了基于CEP的流式计算框架,实现了对安全事件的实时动态分析。平台将所有的关联规则都预编译为CQL(Continuous Query Language,持续查询语言),送入自主研发的CEP引擎,对实时事件流进行模式匹配。模式匹配模型采用不确定有限状态机(Nondeterministic Finite Automata,NFA),并参考了RETE算法实现。通过基于特征的规则关联分析引擎,识别已知模式的攻击和违规的过程,属于最经典和传统的一种关联分析技术。

2)基于行为的事件关联分析的定位在于使安全分析实现向基于异常检测的主动分析模型逆转,从而安全监测平台的主流分析方式不再强依赖关联引擎。

规则关联分析依赖于专家经验定义的攻击签名或已知的攻击方法。高级威胁经常没有签名,并且确切的攻击者行为也难以实现预测。事件行为分析是基于异常检测的主动分析模式,它并不是基于静态的关联规则,而是建立被观测对象正常基准行为,通过对实时活动与基准行为的对比来揭示可疑的攻击活动。事件行为分析可以智能发现隐藏的攻击行为,加速确定没有签名的威胁,减少管理人员必须调查的事故数量。

系统支持两种行为分析技术:

●动态基线技术:采用了周期性基线分析的方法。周期性基线根据历史数据计算得出,通常是一个单周期数据库轮廓线。这条曲线由若干数据轮廓点组成。每个轮廓点代表一个采样时点。一个新的实际测量值如果没有超过基线范围,则通过加权平均算法更新旧的轮廓值。如果新的实际测量值超过基线范围则丢弃,不参与新轮廓值计算。如此往复循环,基线始终处于动态变化中。

·预测分析技术:采用了基于时间窗置信区间的检测模型和方法。可以在实际运行中不断自我调整和逼近,自动剔除历史时间窗内的异常历史数据,实现历史时间窗数据与网络实际正常流量行为特征的高度吻合,从而提高了对异常行为报警的准确性。

3)基于机器学习和统计学的分析技术。大数据为机器学习和统计分析提供了用武之地,首先海量的安全数据保证了机器学习的准确性,分布式处理技术为统计分析方法提供了快捷高效的计算方法,使海量数据的处理得以在短时间内完成。大数据分析平台采用Map/Reduce的方法将复杂的统计和计算分配给各个节点处理,各个节点计算完成将结果汇总至主节点,完成复杂的计算过程。平台通过特定的统计算法,在特定的时间周期内从多个维度对事件进行统计,获得如均值、标准差等统计数据,计算一段时间的行为基线,通过置信区间的设置,可发现超出正常行为基线的异常安全事件。大数据分析平台使用了聚类/分类/推荐分析算法持续地从安全事件的多个维度(向量)朝设定的类别进行聚类运算,找到当前一段时间的事件热点,从而实现对海量事件的实时宏观分析。

平台采用了基于机器学习的算法,如决策树分析,数理统计、假设检验等通过对一定时间周期内的安全事件的多维度进行学习,建立正常的基线,通过分析安全事件的特征值与基线的偏差,超出置信区间的事件会作为异常事件,并可对安全趋势进行预测。机器学习算法可依据采集到的完整的安全数据始终不断地进行学习,以保持最新的基线模型,极大提高发现异常行为和未知威胁的准确性。

大数据分析模型平台基于机器学习和统计学方法提供了地址熵分析、热点事件分析和威胁态势分析等功能,实现了对安全事件的实时分析。

大数据分析平台提供与统计分析工具语言的接口,安全分析人员可使用全世界应用最广泛的统计分析工具对安全数据进行分析,已发现异常安全事件。

作为一种可选的实施方式,在某些实施例中,利用Libra爬虫技术获得目标网站当前的图片资源;将目标网站使用过的全部图片资源用卷积神经网络算法转换成第一模型;检测到修改或新增的图片资源后,将其转换成第二模型并与之前的第一模型进行比对,同时,通过将第二模型与安全厂商提供的威胁情报中的FG图片模型比对,以发现网站被篡改的图片。

其中,利用Libra爬虫技术,设计平台抓取目标网站返回的页面内容,结合高效缓存分析技术,获取页面差异内容,并将该部分内容与安全厂商提供的威胁情报所提取出FG等非法内容进行比对,实现主动检测并发现被篡改的网页内容。

Libra爬虫技术结合Python爬虫以及Scrapy爬虫的优点,尤其是在脚本语言设计方面,该爬虫技术可以根据爬取任务类型进行灵活调整,从而提升其去重效能。在运用Libra爬虫技术对Web漏洞进行检测时,拥有完善的工程目录,包括:

1)定义抽取网络页面结构;

2)对抽取的数据进行处理;

3)爬虫配置文件;

4)发明配置文件。

在运用Libra爬虫技术的过程中,会创建一个Spider类,通过其爬取URL、构建列表并分别进行解析。在Spider类中,包含如下强制属性:

1)name,即确立爬虫标记名称;

2)start-urls,即构建列表,后续爬取作业所需要的URL来自于该列表,而且爬取过程中生成的URL会自动被纳入该列表中;

3)parse,即对URL进行解析的方式。在爬取过程中,目标URL会生成一个Response,此即为解析过程所依托的参数。

基于Libra爬虫的优点

在Web漏洞检测领域,有多种爬虫技术可供选择,包括python爬虫、Scrapy爬虫、Base Spider爬虫以及Libra爬虫等。Libra爬虫技术流程与传统爬虫技术相比,Libra爬虫具有如下几个方面的优点:

1)动态爬取,灵活性高。传统的爬虫方式,如python爬虫,只能通过简单的html方式爬取form等链接,只有当漏洞运行后才可以获取其脚本信息。然而,通过Libra爬虫可以利用javascript等来处理所爬取页面的内部脚本,从而提升爬取效率。

2)具有更好的URL去重功能。在爬取过程中,会识别出大量链接,此时就可能出现网络重复。运用传统爬虫技术,可以从复杂网络交互中提取出新URL,然而提取速度较慢。通过Libra爬虫技术,可以对新URL进行快速识别,确定其是否在之前步骤中被爬取,如果存在爬取记录,会跳过进行后续链接识别。

3)降低内容使用量。在对链接进行URL去重时,Libra爬虫技术十分强调Hash表的运用,通过该表,不仅可以降低时间复杂度,并且可以降低Hash冲突可能降低至最小程度,从而提升重复判断正确率。在识别重复性的过程中,如果将识别信息存储为str格式,会使用系统大量内存,影响系统运行速度。为了解决这个问题,Libra爬虫提供了变量格式选择,如果将信息节点存储为int格式,可以对链接进行压缩,从而将内容使用量降低至原本的1/3。

4)注入点信息多样化。通过Libra爬虫技术,所抓取的URL数据类型多样,其包含的注入点除了HTML标签和HTML事件以外,还包括HTML属性,可以为Web管理员提供更多信息参考。

作为一种可选的实施方式,在某些实施例中,将威胁数据筛选出攻陷指标作为可机读威胁情报,并且使用现存的日志对比匹配形成趋势或线索,以指导安全响应并进行攻击行为阻断。

威胁情报为平台提供了"及时识别和应对攻陷指标的能力"。虽然有关攻击的信息比比皆是,威胁情报在过程中识别攻击行为的实质是将这些信息与攻击方法和攻击进程的上下文知识紧密结合。

本发明中,研究图片内容篡改检测技术,采用上述web安全风险智能分析技术研究的技术路线,将目标网站使用过的全部图片资源用CNN(卷积神经网络)算法转换成模型,发现修改或新增的图片资源后,将其转换成模型并与之前的模型进行比对,以发现可疑新增的图片。同时,通过将修改或新增的图片模型与安全厂商我方提供的威胁情报中的FG图片模型比对,以实现从外部主动检测并发现网站被篡改的图片。用户将以敏捷和快速反应的方式应对不断发展的、大批量、高优先级的网站图片内容篡改威胁。如果不进行匹配,用户则是在盲目地努力并且还要面对混乱报警的局面。

在本分析技术中观察威胁会过度关注内部细节。所有形式的威胁数据,不论是结构化还是非结构化的,都需要从更"全球化"的角度进行综合分析和研究。当使用筛选后的高质量威胁情报来预警时,你才能开始形成对于威胁的感知能力(它们可以对你做什么以及它们如何做),黑客基础设施和武器(它们从哪来),动机(为什么它们这么做)以及它们的目的和资源的全面的了解。

通过威胁情报与平台结合,可以汇总和合理化威胁数据自动筛选出攻陷指标(IOC)作为可机读威胁情报(MRTI),并且使用现存的日志对比匹配以便轻松发现不常见的趋势或线索,并对其有效执行操作。通过将团队、流程和工具结合在一起,威胁情报平台为安全团队提供了对于威胁来自哪里前所未有的视野,并可以从头到尾跟踪整个事件,通过报告,可指导安全响应并进行阻断。节省了追踪传统态势感知平台产生的误报所花的大量时间。

在威胁情报关联分析技术聚合的威胁情报可以对威胁进行有效的控制、验证、度量威胁情报的价值,并成熟地使用它来进行警报和阻断。通过威胁情报关联技术,可以确信数据是与威胁相关的并已经进行优先性排序的,以便更正确地处置相关情报。

作为一种可选的实施方式,在某些实施例中,采用基于内核驱动保护技术、动态网页脚本保护技术和连续篡改攻击保护技术防止网站内容被篡改。

内核事件触发保护机制,确保系统资源不被浪费,不同于其他防篡改软件的Web事件触发机制,设计的页面防篡改模块采用的是与操作系统底层文件驱动级保护技术,与操作系统紧密结合的。即使服务器遭受黑客攻击取得操作管理员权限也无法对被保护内容实施保护,这样做完全杜绝了普通Web内嵌防篡改软件可能发生的计算校验占用系统资源过多,断线篡改后无法恢复等一系列风险。

目前的网站越来越多地使用动态技术(例如:ASP、JSP、PHP)来输出网页。动态网页由网页脚本和内容组成:网页脚本以文件形式存在于Web服务器上;网页内容则取自于数据库。一般来说,数据库处在内部网中,没有外部地址,而且可以只接受来自内部指定地址的访问,因此一般不会受到攻击。而存在于Web服务器上的动态网页脚本则与静态网页一样,容易受到攻击。

采用文件驱动级技术的系统,可以直接从Web服务器上得到动态网页脚本,不受变化的内容影响,因而能够像静态网页一样保护动态网页脚本。

对于大规模连续的篡改,检测到首个非法操作后就会实时阻断其后续其他的篡改操作。系统针对来源和操作行为,提前终止其后续篡改操作请求。系统在底层完成这些防护措施并不会将这些大规模连续篡改请求发送到上层应用,极大的降低了应用程序的处理负担,有效的提高了应有工作效率。

而普通的Web内嵌事件触发型防篡改软件在发生大规模连续篡改时,需要每次通过应用层插件计算校验匹配,由于不能阻止篡改发生,这些软件需要不停的重复恢复原始网页内容,极大的占用系统资源和网络资源,并可能造成显示错误页给访问用户。

作为一种可选的实施方式,在某些实施例中,对于检测到网站内容被篡改后,将可信备份路径下的网页内容快速恢复到相应文件夹。

系统采用先进的算法将可信备份路径下的网页内容快速恢复到相应文件夹,减少人工干预,并且支持传统的SFTP、网络共享等,本系统支持高速上传功能,同样也支持网页备份到指定文件夹的功能,方便维护人员对网站进行日常维护。可以无缝的和所有内容管理系统相结合并且不需要做任何修改,大大方便与用户管理和部署。

作为一种可选的实施方式,在某些实施例中,采用SOAR技术建立应急场景自动响应,其中,SOAR技术帮助收集web安全监控到的信息,并对收集到的信息进行事件分析和告警分诊,在标准工作流程的指引下,利用人机结合的方式帮助安全运维人员定义、排序和驱动标准化的事件响应活动。

本发明拟采用SOAR技术,SOAR是一系列技术的合集,它能够帮助收集web安全监控到的各种信息(包括各种安全系统产生的告警),并对这些信息进行事件分析和告警分诊。然后在标准工作流程的指引下,利用人机结合的方式帮助安全运维人员定义、排序和驱动标准化的事件响应活动。SOAR工具使得篡改事件分析与响应流程进行形式化的描述。

同时,提供一种采用上述方法设计的平台,该响应平台基于SOA架构,面向服务的体系结构(Service-OrientedArchitecture),即SOA,是包含运行环境、编程模型、架构风格和相关方法论等在内的一整套新的分布式软件系统构造方法和环境,涵盖服务的整个生命周期。SOA以服务为核心,来实现的IT系统更灵活、更易于重用、更好(也更快)地应对变化。

网站内容监(检)测和自动化响应平台提供了丰富的可视化能力,可根据各类web基础数据及系统分析后数据进行基于web安全态势的信息呈现。

同时,web安全态势是会随着新技术、新威胁的出现发生变化的,网站内容监(检)测和自动化响应平台也提供了丰富的界面配置功能来帮助用户完成基于当前web安全态势的可视化自定义能力。

平台提供了各种视图,用户可根据自己的需要定制自己的界面,显示自己关注的数据。通过仪表板及web安全界面,安全分析人员可以更轻松的处理各种数据,利用可视化的形式关联数据,查明异常行为,为安全调查提供分析起点。平台提供基于web安全监测的分析报表和报告。

本发明的关键创新点如下:

1、结合当前检测技术的发展应用趋势及针对webshell的安全防护机制进行分析,目前对于Web日志的逻辑关联分析技术及webshell安全检测机制存在一定的技术局限性,在当前云计算及大数据环境的发展下已无法有效提供安全防护,相关数据信息需在结合AI(人工智能)技术及大数据平台的基础上,通过足量的数据分析及数据优化进行技术研究与拓展,研究相应的web攻击及webshell检测分析引擎,才能有效提升对网站安全性的检测能力。

2、当前针对网页内容篡改的检测与防护的技术与机制均存在一定的滞后性,目前以部署web防火墙及防篡改产品两种方式来解决网页内容篡改的问题,但web防火墙更侧重于对外部web攻击的防护为主,对网站本身的内容完整性缺少有效的防护;网页防篡改则利用文件保护进程实现安全防护,在保护进程被卸载后将失去防护效果。

面对当前网站内容篡改检测与防护的技术局限性,需研究拓展适宜实际业务环境需要的检测技术与防护机制,需侧重于系统驱动层和信息展示层开展相关技术研究,从不同技术层面开展防护研究工作,并结合AI与大数据技术以提高信息检测的准确性,才能有效提升网站篡改检测与防护的效果。

3、SOAR技术是当前最为热门的技术话题之一,有效实现SOAR自动化响应能极大程度地提高运维工作人员的工作效率,根据超高压公司多个互联网应用的实际使用场景及业务数据流转情况,需结合实际场景及超高压公司的现有安全防护机制进行整体性分析,建立符合实际业务场景的自动化响应机制及安全防护技术,才能从整体上提升超高压公司网站内容地自动化安全响应。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

上述实施例只是为了说明本发明的技术构思及特点,其目的是在于让本领域内的普通技术人员能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡是根据本发明内容的实质所做出的等效的变化或修饰,都应涵盖在本发明的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号