首页> 中国专利> 网站监测方法、网站图谱建立方法、装置及电子设备

网站监测方法、网站图谱建立方法、装置及电子设备

摘要

本申请涉及一种网站监测方法、网站图谱建立方法、装置及电子设备,属于网络安全技术领域。该网站监测方法包括:获取待监测网站的预先建立的图谱数据,所述图谱数据包括界面节点;针对每一个界面节点,判断该界面节点是否已被监测;在确定该界面节点未被监测时,获取该界面节点所包含的最新版本的子节点;对该子节点进行监测,并在与该子节点存在关联关系的所有界面节点中记录对该子节点的监测结果。基于图谱数据进行网站监测,利用图谱节点关联的数据与关联关系,无需再次采集数据,提高了监测效率,同时,将监测结果反馈至界面节点上,不仅能更加直观的展示网站整体健康状况,而且可以避免重复监测,以进一步提高监测效率。

著录项

  • 公开/公告号CN112699280A

    专利类型发明专利

  • 公开/公告日2021-04-23

    原文格式PDF

  • 申请/专利号CN202011643054.1

  • 发明设计人 熊毅;

    申请日2020-12-31

  • 分类号G06F16/901(20190101);G06F16/36(20190101);G06F16/951(20190101);G06F16/955(20190101);G06F16/958(20190101);G06F21/57(20130101);G06F11/00(20060101);H04L29/06(20060101);

  • 代理机构11463 北京超凡宏宇专利代理事务所(特殊普通合伙);

  • 代理人余菲

  • 地址 100000 北京市海淀区上地东路1号院3号楼四层

  • 入库时间 2023-06-19 10:43:23

说明书

技术领域

本申请属于网络安全技术领域,具体涉及一种网站监测方法、网站图谱建立方法、装置及电子设备。

背景技术

随着互联网的快速发展,网络攻击行为呈现出多元化、常态化的特点。漏洞攻击、内容篡改、挂马等各种网络行为明显增多,网站安全问题面临严峻挑战,尤其是一些具体高权威、低防护特点的门户网站很容易成为被攻击目标,从而造成严重的后果。如何及时发现各种网络攻击行为,降低被攻击造成的损失,已成为信息安全领域研究重点。

现有网站监测技术主要基于爬虫技术,周期性对网站进行深度采集,结合采集数据对网站进行不同类型的监测,虽然该方式已经满足网站监测需求,但是并不能够很好的利用网站采集数据,造成部分数据无法复用,降低了监测效率,且无法提供网站元素间的关联性,缺少网站整体维度的监控状况。

发明内容

鉴于此,本申请的目的在于提供一种网站监测方法、网站图谱建立方法、装置及电子设备,以改善现有网站检测技术存在的监测效率低,且无法提供网站元素间的关联性,缺少网站整体维度的监控状况的问题。

本申请的实施例是这样实现的:

第一方面,本申请实施例提供了一种网站监测方法,包括:获取待监测网站的预先建立的图谱数据,所述图谱数据包括界面节点;针对每一个界面节点,判断该界面节点是否已被监测;在确定该界面节点未被监测时,获取该界面节点所包含的最新版本的子节点;对该子节点进行监测,并在与该子节点存在关联关系的所有界面节点中记录对该子节点的监测结果。在本申请实施例中,基于图谱数据进行网站监测,利用图谱节点关联的数据与关联关系,无需再次采集数据(图谱提供了网站监测所需要的原数据),提高了监测效率,同时,仅对未被监测的界面节点中的子节点进行监测,并将监测结果反馈至界面节点上,不仅能更加直观的展示网站整体健康状况,而且可以避免重复监测,以进一步提高监测效率。

结合第一方面实施例的一种可能的实施方式,针对每一个界面节点,判断该界面节点是否已被监测,包括:依次判断每一个界面节点是否已被监测,若当前正在判断的界面节点已被检测,则判断下一个界面节点是否已被监测。本申请实施例中,在针对每一个界面节点,判断该界面节点是否已被监测时,依次判断每一个界面节点是否已被监测,若当前正在判断的界面节点已被检测,则判断下一个界面节点是否已被监测,这样的判断方式可以降低对设备的性能要求,支持单引擎设备。

结合第一方面实施例的一种可能的实施方式,一个所述界面节点对应一个所述待监测网站;每一个界面节点下包含的子节点包括从该界面节点对应的网站界面中爬取到的域名、链接、元素各自对应的节点。本申请实施例中,将从待监测网站对应的网站界面中爬取到的域名、链接、元素作为界面节点的子节点,使得对网站进行监测时,利用图谱数据可直接对多种监测类型同时进行分析,例如敏感词、链接、变更监控等,可直接使用一份采集数据进行分析,提高了监测效率。

结合第一方面实施例的一种可能的实施方式,对该子节点进行监测,包括:若该子节点为链接节点,则对该链接节点对应的链接信息进行链接监测;若该子节点为域名节点,则对该域名节点对应的域名信息进行DNS监测;若该子节点为元素节点,则对该元素节点对应的内容信息进行敏感词以及内容变更监测。本申请实施例中,针对不同的节点类型,在监测时所监测的内容也不同,通过有针对性的监测,以提高网站的安全性。

结合第一方面实施例的一种可能的实施方式,所述方法还包括:获取该界面节点对应的URL;对所述URL进行漏洞检测和/或可用性检测,并将该URL的检测结果记录在该界面节点中。本申请实施例中,还可以对界面节点对应的URL进行漏洞检测和/或可用性检测,并将该URL的检测结果记录在该界面节点中,在提高安全性的同时,也增强方案的适用性。

结合第一方面实施例的一种可能的实施方式,在对该子节点进行监测之后,所述方法还包括:根据该子节点的监测结果对所述待监测网站的图谱数据进行更新。本申请实施例中,还可以根据监测结果对待监测网站的图谱数据进行更新,以丰富图谱结构与内容,以便于实现更全面的监测。

第二方面,本申请实施例还提供了一种网站图谱建立方法,包括:获取待构建知识图谱的目标网址;对所述目标网址对应的网页进行数据爬取,得到该网页对应的界面数据和所包含的网址链接,并对爬取到的网址链接对应的网页进行数据爬取,得到该网址链接对应的网页对应的界面数据和所包含的网址链接;基于所述目标网址、爬取到的网址链接以及从各个网址对应的网页中爬取到的界面数据,建立知识图谱,其中,所述知识图谱中的一个界面节点对应一个网址,每一个界面节点下包含的子节点包括从该界面节点对应的网址的网页界面中爬取到的域名、链接、元素各自对应的节点,界面节点之间的链路方向表示从该链路方向首端的界面节点对应的网页中能获取到该链路方向末端的界面节点对应的网址。

结合第二方面实施例的一种可能的实施方式,基于所述目标网址、爬取到的网址链接以及从各个网址对应的网页中爬取到的界面数据,建立知识图谱,包括:建立数量与所述目标网址与爬取到的网址链接的数量之和一致的界面节点,一个网址对应一个界面节点;针对每一个界面节点,根据从该界面节点对应的网页界面中爬取到的界面数据,建立与该界面数据的类型对应的子节点,其中,所述类型包括域名、链接、元素;建立各个界面节点间的链路关系,得到初始知识图谱;对所述初始知识图谱中的重复节点进行融合,得到所述知识图谱。

第三方面,本申请实施例还提供了一种网站监测装置,包括:获取模块和处理模块;获取模块,用于获取待监测网站的预先建立的图谱数据,所述图谱数据包括界面节点;处理模块,用于针对每一个界面节点,判断该界面节点是否已被监测,在确定该界面节点未被监测时,获取该界面节点所包含的最新版本的子节点;对该子节点进行监测,并在与该子节点存在关联关系的所有界面节点中记录对该子节点的监测结果。

第四方面,本申请实施例还提供了一种网站图谱建立装置,其特征在于,包括:获取模块、爬取模块以及处理模块;获取模块,用于获取待构建知识图谱的目标网址;爬取模块,用于所述目标网址对应的网页进行数据爬取,得到该网页对应的界面数据和所包含的网址链接,并对爬取到的网址链接对应的网页进行数据爬取,得到该网址链接对应的网页对应的界面数据和所包含的网址链接;处理模块,用于基于所述目标网址、爬取到的网址链接以及从各个网址对应的网页中爬取到的界面数据,建立知识图谱,其中,所述知识图谱中的一个界面节点对应一个网址,每一个界面节点下包含的子节点包括从该界面节点对应的网址的网页界面中爬取到的域名、链接、元素各自对应的节点,界面节点之间的链路方向表示从该链路方向首端的界面节点对应的网页中能获取到该链路方向末端的界面节点对应的网址。

第五方面,本申请实施例还提供了一种电子设备,包括:存储器和处理器,所述处理器与所述存储器连接;所述存储器,用于存储程序;所述处理器,用于调用存储于所述存储器中的程序,以执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法,或者,执行上述第二方面实施例和/或结合第二方面实施例的任一种可能的实施方式提供的方法。

第六方面,本申请实施例还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法,或者,执行上述第二方面实施例和/或结合第二方面实施例的任一种可能的实施方式提供的方法。

本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例而了解。本申请的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本申请的主旨。

图1示出了本申请实施例提供的一种网站图谱建立方法的流程示意图。

图2示出了本申请实施例提供的一种网站图谱的示意图。

图3示出了本申请实施例提供的一种建立网站图谱中的子节点的流程示意图。

图4示出了本申请实施例提供的一种网站监测方法的流程示意图。

图5示出了本申请实施例提供的又一种网站监测方法的流程示意图。

图6示出了本申请实施例提供的一种网站图谱建立装置的结构框图。

图7示出了本申请实施例提供的一种网站监测装置的结构框图。

图8示出了本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中诸如“第一”、“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

再者,本申请中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。

鉴于现有网站监测技术很好的利用网站采集数据,造成部分数据无法复用,降低了监测效率,且无法提供网站元素间的关联性,缺少网站整体维度的监控状况的问题,本申请实施例提供了一种基于知识图谱的网站监测方法,基于知识图谱的网站监测方式,可全面了解网站空间化结构,结合网站监测可以直观辨识网站综合健康状况,实时监控检测状态,以及发现网站结构变化。基于图谱采用广度的监测模式,利用整体分散的网站节点采用分布式监测方案,提升网站整体监测性能,缩短消耗时长。

下面将结合图1对本申请实施例提供的网站图谱建立方法进行说明。该方法包括以下步骤:

步骤S101:获取待构建知识图谱的目标网址。

获取待构建知识图谱的目标网址,其中该目标网址可以是一些需要实时或经常进行安全监测的网址,可以是多个,若为多个,则针对每一个目标网址,单独构建一个基于该目标网址的知识图谱,每一个知识图谱为一个单一网站的内部空间结构图。

步骤S102:对所述目标网址对应的网页进行数据爬取,得到该网页对应的界面数据和所包含的网址链接,并对爬取到的网址链接对应的网页进行数据爬取,得到该网址链接对应的网页对应的界面数据和所包含的网址链接。

利用爬虫技术对目标网址对应的网页进行数据爬取(第一层爬取),得到该网页对应的界面数据和所包含的网址链接,然后对爬取到网址链接对应的网页继续进行数据爬取(第二层爬取),又可以得到该网址链接对应的网页对应的界面数据和所包含的网址链接,然后继续对爬取到的网址链接对应的网页继续进行数据爬取(第三层爬取),以此类推,直至爬取到的数据中不包含网址链接,或者爬取的层数达到预设层数(如达到4层),则停止继续爬取。

当有多个待爬取的网址时,利用分布式采集引擎对待爬取的网址对应的网页进行数据爬取,爬取该网址对应的网页中包含的各种数据,如界面内的元素信息(例如,正文、标题、文件(Document))、域名、普通链接(不为指向另一个网页的网址链接,其可以是指向图片、视频、文件等的链接)、网址链接(指向网页的网址链接,通过该网址链接可以跳转到对应的网页)等数据。采用分布式引擎进行爬取,可以均衡采集单点压力,合理利用资源,解决资源消耗问题,此外还可以缩短爬取数据所需的时间消耗。

其中,还可以对爬取到文件以及普通链接等进行深度爬取,提取所包含的域名信息,并进行相应的域名解析,解析后获取域名相关的A记录(用于记录域名指向的IPV4地址)、AAAA记录(用于记录域名指向的IPV6地址)、TXT记录(用于记录说明)、NS记录(用于记录解析该域名向的域名系统服务器)等。其中,在进行数据爬取时,可以利用目前成熟的爬虫技术进行数据爬取。

步骤S103:基于所述目标网址、爬取到的网址链接以及从各个网址对应的网页中爬取到的界面数据,建立知识图谱。

基于待构建知识图谱的目标网址、爬取到的网址链接以及从各个网址(包括目标网址和爬取到的网址链接)对应的网页中爬取到的界面数据,建立知识图谱,并关联相应的采集数据。其中,知识图谱中的一个界面节点对应一个网址,每一个界面节点下包含的子节点包括从该界面节点对应的网址的网页界面中爬取到的域名、链接、元素各自对应的节点,界面节点之间的链路方向表示从该链路方向首端的界面节点对应的网页中能获取到该链路方向末端的界面节点对应的网址。

其中,基于所述待构建知识图谱的目标网址、爬取到的网址链接以及从各个网址(包括目标网址和爬取到的网址链接)对应的网页中爬取到的界面数据,建立知识图谱的过程可以是:根据待构建知识图谱的目标网址以及爬取到的网址链接,建立数量与待构建知识图谱的目标网址与爬取到的网址链接的数量之和一致的界面节点,一个网址对应一个界面节点,例如有5个网址则对应5个界面节点;然后针对每一个界面节点,根据从该界面节点对应的网页界面中爬取到的界面数据(包括多种不同类型的资源),建立与该界面数据的类型(包括域名、链接、元素)对应的子节点,也即根据从该界面节点对应的网页界面中爬取到的界面数据建立该界面节点下的域名节点、链接节点、元素节点;然后建立各个界面节点间的链路关系,便可得到初始知识图谱;最后对初始知识图谱中的重复节点进行融合,得到最终的知识图谱。其中,界面节点间的链路方向表示从该链路方向首端的界面节点对应的网页中能获取到该链路方向末端的界面节点对应的网址。在建立各个界面节点间的链路关系时,根据能否从界面节点A的网页中获取到界面节点B对应的网址,若可以则建立界面节点A与界面节点B间的链路关系,且链路方向由界面节点A指向界面节点B。若不能从界面节点A的网页中获取到界面节点B对应的网址,则不建立链路关系。若既能从界面节点A的网页中获取到界面节点B对应的网址,又能从界面节点B的网页中获取到界面节点A对应的网址,则该链路方向为双向箭头。

其中,建立的网站图谱的示意图可以如图2所示。该网站图谱主要用于描述网站三维空间结构,体现网站界面间跳转以及与其它界面节点的链路关系,涉及界面节点、域名节点、元素节点、链接节点。不同节点包含着网站详细数据,该数据可用于进行网站监测,节点间的链路关系便于进行网站深度分析。其中的界面节点对应一个待构建知识图谱的网址,界面节点下的链接节点、元素节点以及域名节点为根据从该界面节点对应的网页界面中爬取到的界面数据的类型而建立的。

其中,一种实施方式下,在建立数量与待构建知识图谱的目标网址与爬取到的网址链接的数量之和一致的界面节点时,可以是遍历待构建知识图谱的目标网址与爬取到的网址链接,判断当前网址是否建立对应的界面节点,如果没有建立,则创建出相应的界面节点并记录基础信息,如果存在则判断下一个网址是否建立对应的界面节点,直至每一个网址均建立对应的界面节点。

一种实施方式下,针对每一个界面节点,根据从该界面节点对应的网页界面中爬取到的界面数据,建立与该界面数据的类型(包括域名、链接、元素)对应的子节点的过程,可以结合图3进行说明。遍历该界面节点下的界面数据(包括多种不同类型的资源),判断当前资源是否为域名资源,如果是则创建域名节点,并将根据该域名资源解析出来的A记录、AAAA记录、TXT记录、NS记录等数据与该节点关联;如果不为域名资源,则判断是否为链接资源,如果是则创建链接节点,并将该链接资源(如图片链接、媒体文件链接、样式文件链接等)与该节点相关联,如果不是链接资源,则创建元素节点,并将爬取到的元素内容信息(包含正文、标题、文件)与该节点相关联。然后按照相同的方式继续建立更多的子节点,直至遍历完该界面节点下的所有资源数据。其中,需要说明的是,在判断当前资源所述的节点类型时,并不限于是先判断是否为域名资源、如果不是再判断是否为链接资源,其可以是从链接资源、域名资源、元素资源中选取任意两者进行判断,且不分先后,例如,可以是先判断是否为链接资源、如果不是再判断是否为域名资源,当然也可以是先判断是否为元素资源,如果不是再判断是否为域名资源或链接资源。

其中,需要说明的是,建立界面节点与建立界面节点下的域名节点、链接节点、元素节点并不是相互独立的,而是彼此关联的。为了便于理解,以从目标网址开始建立整个知识图谱的过程进行说明,则有:建立目标网址对应的界面节点,根据从目标网址对应的网页中爬取到的界面数据建立该界面节点下的域名、链接、元素子节点,以及根据从目标网址对应的网页中爬取到的网址链接建立对应的界面节点,然后针对爬取到的网址链接建立的界面节点,根据从该界面节点对应的网址链接对应的网页中爬取到的界面数据建立该界面节点下的域名、链接、元素子节点,以及根据该界面节点对应的网址链接对应的网页中爬取到的网址链接建立对应的界面节点……直至完成整个知识图谱的建立。

其中,界面节点关联的数据包括该界面节点的基础信息(如该界面节点对应的网址URL(Uniform Resource Locator,统一资源定位符))、链接节点、域名节点、元素节点。链接节点关联的数据包括该链接节点对应的链接信息(如图片链接、媒体文件链接、样式文件链接等),元素节点所关联的数据包括爬取到的元素内容信息(如包含正文、标题、文件),域名节点关联的数据包括根据该域名节点对应的域名资源解析出来的A记录、AAAA记录、TXT记录、NS记录等数据。

在创建完待监测网站的图谱数据后,可以周期性(如一个月)的对该图谱数据进行更新完善,每一个周期都会得到新版本的图谱数据,并递增在图谱节点上。在周期性地对图谱结构进行更新时,可以是重新对界面节点对应的网页进行爬取,然后基于爬取到的界面数据和网址链接来完善该图谱结构。基于爬取到的界面数据和网址链接来完善该图谱结构的过程与上述基于爬取到的界面数据和网址链接来建立图谱结构的过程相同,在此不再赘述。

在创建好待监测网站的图谱数据后,后续在对该待监测网站进行检测时,便可直接获取该待监测网站的图谱数据进行后续监测。下面将结合图4,对本申请实施例提供的网站监测方法进行说明。该方法包括以下步骤:

步骤S201:获取待监测网站的预先建立的图谱数据,所述图谱数据包括界面节点。

当需要对待检测网站进行检测时,获取待监测网站的预先建立的图谱数据,其中,建立待检测网站的知识图谱的方式请参阅上述图1所示的方法,该图谱数据包括所有的界面节点。

步骤S202:针对每一个界面节点,判断该界面节点是否已被监测。

在获取到图谱数据包含的界面节点后,针对每一个界面节点,判断该界面节点是否已被监测。一种实施方式下,可以是依次判断每一个界面节点是否已被监测,若当前正在判断的界面节点已被检测,则判断下一个界面节点是否已被监测,直至判断完所有的界面节点。其中,一种实施方式下,可以是只有当一个界面节点下的所有子节点均已被监测,才表征该界面节点已被监测。

步骤S203:在确定该界面节点未被监测时,获取该界面节点所包含的最新版本的子节点。

由于图谱的监测与更新是持续的,会持续的对图谱的节点进行监测,因此同一个图谱节点会被采集多次,监测多次,为了实现对最新版本的节点进行监测,因此在确定该界面节点未被监测时,获取该界面节点所包含的最新版本的子节点,也即获取最新版本下的子节点,其中,该子节点包括元素节点,域名节点以及链接节点。其中,一个所述界面节点对应一个所述待监测网站;每一个界面节点下包含的子节点包括从该界面节点对应的网站界面中爬取到的域名、链接、元素各自对应的节点。

其中,针对每一个界面节点,在获取该界面节点所包含的最新版本的子节点时,一种实施方式下,可以是同时对多个界面节点中的子节点进行获取,也可以是一个界面节点一个界面节点的获取。

步骤S204:对该子节点进行监测,并在与该子节点存在关联关系的所有界面节点中记录对该子节点的监测结果。

在确定该界面节点未被监测时,获取该界面节点所包含的最新版本的子节点,对该子节点进行监测,并在与该子节点存在关联关系的所有界面节点中记录对该子节点的监测结果,避免重复监测,以提高监测效率。为了便于理解,以上述的图2所示的知识图谱为例,可以看出不同的界面节点可以包括相同的域名,例如界面节点A包括域名节点B,界面节点C也包括该域名节点B,当完成对界面节点A中的域名节点B进行监测时,在与该域名节点B存在关联关系的所有界面节点(也即界面节点A和界定节点C)中记录对该子节点的监测结果,也即会将对域名节点B的检测结果同时记录在界面节点A和界面节点C中,这样当在对界面节点C中的域名节点B进行监测时,根据记录的监测结果便可得到该域名节点B已被监测,因此就不用在对其进行监测,这样便可直接跳过该域名节点B。

其中,在对该子节点进行监测时,若该子节点为链接节点,则对该链接节点对应的链接信息(如图片链接、媒体文件链接、样式文件链接等)进行链接监测,监测该页面下的死链、无效链接、暗链等信息;若该子节点为域名节点,则对该域名节点对应的域名信息(如A记录、AAAA记录、TXT记录、NS记录等数据)进行域名系统(Domain Name System,DNS)监测,监测其中的A记录、AAAA记录、TXT记录、NS记录等是否被篡改;若该子节点为元素节点,则对该元素节点对应的内容信息(正文、标题、文件)进行敏感词以及内容变更监测。

此外,所述方法还可以获取该界面节点对应的URL;对所述URL进行漏洞检测和/或可用性检测(如检测当前地址的连通性、响应情况等),并将该URL的检测结果记录在该界面节点中。

此外,在对该子节点进行监测之后,所述方法还包括:根据该子节点的监测结果对所述待监测网站的图谱数据进行更新。监测产生的数据,可丰富到相应的图谱节点上,例如丰富图谱节点的漏洞检测、敏感词、暗链接、挂马、可用性等监测数据,以便于基于图谱的形式立体化的展示网站监测情况。

其中,一种实施方式下,对待监测网站进行检测的流程图可以如图5所示。获取待监测网站的图谱数据,其中包含图谱内所有的界面节点。遍历每一个界面节点,获取该界面节点下的元素信息(元素节点对应的内容信息)进行敏感词以及内容变更监测,并根据监测结果丰富元素节点,以及获取该界面节点下的链接信息进行链接监测,并根据监测结果丰富链接节点,以及获取该界面节点下的域名信息进行DNS监测,并根据监测结果丰富域名节点,以及对界面节点的基础信息(如该界面节点对应的URL)进行漏洞检测和/或可用性检测,并根据监测结果丰富图谱界面节点。

本申请实施例中,基于图谱数据进行网站监测,利用图谱节点关联的数据与关联关系,无需再次采集数据(图谱提供了网站监测所需要的原数据),提高了监测效率。利用图谱数据可直接对多种监测类型同时进行分析,例如敏感词、链接、变更监控可直接使用一份采集数据进行分析,利用图谱节点的关联关系进行深度分析,发现监测存在问题的节点与其它关联节点存在的潜在风险。监测结果可反馈至图谱节点上,更加直观的展示网站整体健康状况。

本申请实施例还提供了一种网站图谱建立装置100,如图6所示。该网站图谱建立装置100包括:获取模块110、爬取模块120以及处理模块130。

获取模块110,用于获取待构建知识图谱的目标网址。

爬取模块120,用于对所述目标网址对应的网页进行数据爬取,得到该网页对应的界面数据和所包含的网址链接,并对爬取到的网址链接对应的网页进行数据爬取,得到该网址链接对应的网页对应的界面数据和所包含的网址链接。

处理模块130,用于基于所述待构建知识图谱的目标网址、爬取到的网址链接以及从各个网址对应的网页中爬取到的界面数据,建立知识图谱,其中,所述知识图谱中的一个界面节点对应一个网址,每一个界面节点下包含的子节点包括从该界面节点对应的网址的网页界面中爬取到的域名、链接、元素各自对应的节点,界面节点之间的链路方向表示从该链路方向首端的界面节点对应的网页中能获取到该链路方向末端的界面节点对应的网址。

可选地,处理模块130用于:建立数量与所述目标网址与爬取到的网址链接的数量之和一致的界面节点,一个网址对应一个界面节点;针对每一个界面节点,根据从该界面节点对应的网页界面中爬取到的界面数据,建立与该界面数据的类型对应的子节点,其中,所述类型包括域名、链接、元素;建立各个界面节点间的链路关系,得到初始知识图谱,其中所述界面节点间的链路方向表示从该链路方向首端的界面节点对应的网页中能获取到该链路方向末端的界面节点对应的网址;对所述初始知识图谱中的重复节点进行融合,得到所述知识图谱。

本申请实施例所提供的网站图谱建立装置100,其实现原理及产生的技术效果和前述网站图谱建立方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。

本申请实施例还提供了一种网站监测装置200,如图7所示。该网站监测装置200包括:获取模块210、处理模块220。

获取模块210,用于获取待监测网站的预先建立的图谱数据,所述图谱数据包括界面节点。

处理模块220,用于针对每一个界面节点,判断该界面节点是否已被监测,在确定该界面节点未被监测时,获取该界面节点所包含的最新版本的子节点;对该子节点进行监测,并在与该子节点存在关联关系的所有界面节点中记录对该子节点的监测结果。

可选地,处理模块220,用于依次判断每一个界面节点是否已被监测,若当前正在判断的界面节点已被检测,则判断下一个界面节点是否已被监测。

可选地,处理模块220,用于若该子节点为链接节点,则对该链接节点对应的链接信息进行链接监测;若该子节点为域名节点,则对该域名节点对应的域名信息进行DNS监测;若该子节点为元素节点,则对该元素节点对应的内容信息进行敏感词以及内容变更监测。

可选地,获取模块210还用于获取该界面节点对应的URL。,处理模块220,还用于对所述URL进行漏洞检测和/或可用性检测,并将该URL的检测结果记录在该界面节点中。

可选地,获取模块210还用于在对该子节点进行监测之后,根据该子节点的监测结果对所述待监测网站的图谱数据进行更新。

本申请实施例所提供的网站监测装置200,其实现原理及产生的技术效果和前述网站监测方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。

如图8所示,图8示出了本申请实施例提供的一种电子设备300的结构框图。所述电子设备300包括:收发器310、存储器320、通讯总线330以及处理器340。

所述收发器310、所述存储器320、处理器340各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线330或信号线实现电性连接。其中,收发器310用于收发数据。存储器320用于存储计算机程序,如存储有图6中所示的软件功能模块,即网站图谱建立装置100,或者,如存储有图7中所示的软件功能模块,即网站监测装置200。其中,网站图谱建立装置100或网站监测装置200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器320中或固化在所述电子设备300的操作系统(operating system,OS)中的软件功能模块。所述处理器340,用于执行网站图谱建立装置100包括的软件功能模块或计算机程序时,用于获取待构建知识图谱的目标网址;以及对所述目标网址对应的网页进行数据爬取,得到该网页对应的界面数据和所包含的网址链接,并对爬取到的网址链接对应的网页进行数据爬取,得到该网址链接对应的网页对应的界面数据和所包含的网址链接;以及还用于基于所述目标网址、爬取到的网址链接以及从各个网址对应的网页中爬取到的界面数据,建立知识图谱,其中,所述知识图谱中的一个界面节点对应一个网址,每一个界面节点下包含的子节点包括从该界面节点对应的网址的网页界面中爬取到的域名、链接、元素各自对应的节点,界面节点之间的链路方向表示从该链路方向首端的界面节点对应的网页中能获取到该链路方向末端的界面节点对应的网址。

所述处理器340,用于执行网站监测装置200包括的软件功能模块或计算机程序时,用于获取待监测网站的预先建立的图谱数据,所述图谱数据包括界面节点;以及针对每一个界面节点,判断该界面节点是否已被监测;在确定该界面节点未被监测时,获取该界面节点所包含的最新版本的子节点;对该子节点进行监测,并在与该子节点存在关联关系的所有界面节点中记录对该子节点的监测结果。

其中,存储器320可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。

处理器340可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器340也可以是任何常规的处理器等。

其中,上述的电子设备300,包括但不限于网络设备(如防火墙)、服务器、计算机等。

本申请实施例还提供了一种非易失性计算机可读取存储介质(以下简称存储介质),该存储介质上存储有计算机程序,该计算机程序被计算机如上述的电子设备300运行时,执行上述所示的网站监测方法和/或网站图谱建立方法。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,笔记本电脑,服务器,或者电子设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号