首页> 中国专利> 非法网站识别方法、装置、电子设备及存储介质

非法网站识别方法、装置、电子设备及存储介质

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本申请涉及网络安全技术领域，提供了一种非法网站识别方法、装置、电子设备及存储介质。所述方法包括：抓取并解析访问网站在预设协议层的数据包，得到第一网站信息；基于网站信息，对访问网站进行识别，得到第一识别结果；在第一识别结果为确定访问网站为非法网站时，向服务器发送网站信息，以使服务器利用网站识别模型基于网站信息，对访问网站进行识别，得到第二识别结果；接收第二识别结果，并在第二识别结果为确定访问网站为非法网站时，确定访问网站为非法网站。本方案能够提高对访问网站进行识别的准确性。并且，相比于现有技术中仅能够识别黑名单数据库中记载的已知的非法网站，可识别出未知非法网站，从而避免漏判非法的访问网站。

著录项

公开/公告号CN114978695A

专利类型发明专利
公开/公告日2022-08-30

原文格式PDF
申请/专利权人西安闻泰信息技术有限公司;
展开▼

申请/专利号CN202210566555.7
发明设计人吴霄;
展开▼

申请日2022-05-23
分类号H04L9/40(2022.01);H04L69/22(2022.01);
代理机构北京开阳星知识产权代理有限公司 11710;
代理人王艳斌
地址 710086 陕西省西安市沣东新城沣东旺城1号楼
入库时间 2023-06-19 16:36:32

法律信息

法律状态公告日

法律状态信息

法律状态
2022-12-23

实质审查的生效 IPC(主分类):H04L 9/40 专利申请号:2022105665557 申请日:20220523

实质审查的生效

说明书

技术领域

本申请涉及网络安全技术领域，尤其涉及一种非法网站识别方法、装置、电子设备及存储介质。

背景技术

随着互联网技术的发展，基于互联网的网上银行转账、电子商务等为人们的工作、生活带来巨大的便利。与此同时，互联网信息也面临着安全威胁，例如，网络攻击者利用非法网站伪装成银行或电子商务等网站，以窃取用户提交的银行帐号、密码等敏感信息。因此，如何识别非法网站已成为研究热点。

现有技术中，通常基于黑名单数据库识别非法网站，即将访问网站的网站信息与黑名单数据库中的非法网站的网站信息进行一一匹配，如果能匹配到则确定访问网站为非法网站。但是，该种非法网站识别方法，不能正确识别未在黑名单数据库上列出的非法网站，容易引起漏判。

发明内容

基于此，有必要针对上述技术问题，提供一种快速、准确的非法网站识别方法、装置、电子设备及存储介质。

本申请实施例提供了一种非法网站识别方法，所述方法包括：

抓取并解析访问网站在预设协议层的数据包，得到第一网站信息；其中，预设协议层包括数据链路层或网络接口层；

基于网站信息，对访问网站进行识别，得到第一识别结果；其中，网站信息包括第一网站信息；

在第一识别结果为确定访问网站为非法网站时，向服务器发送网站信息，以使服务器利用网站识别模型基于网站信息，对访问网站进行识别，得到第二识别结果；

接收第二识别结果，并在第二识别结果为确定访问网站为非法网站时，确定访问网站为非法网站。

在一个实施例中，抓取并解析访问网站在预设协议层的数据包，得到第一网站信息，包括：

利用预设数据包抓取命令，抓取数据包；

针对每个数据包，基于数据包中各字段对应的数据类型对各字段进行解析，得到第一网站信息。

在一个实施例中，在针对每个数据包，基于数据包中各字段对应的数据类型对各字段进行解析，得到第一网站信息之前，该方法还包括：

从数据包中，筛选出符合预设筛选条件的数据包，得到第一数据包；

其中，针对每个数据包，基于数据包中各字段对应的数据类型对各字段进行解析，得到第一网站信息，包括：

针对每个第一数据包，基于数据包中各字段对应的数据类型对各字段进行解析，得到第一网站信息。

在一个实施例中，基于网站信息，对访问网站进行识别，得到第一识别结果，包括：

检测第一网站信息中是否包括敏感信息；

在检测到第一网站信息中包括敏感信息时，将确定访问网站为非法网站作为第一识别结果。

在一个实施例中，该方法还包括：

利用网络爬取技术，获取访问网站的第二网站信息；

其中，基于网站信息，对访问网站进行识别，得到第一识别结果，包括：

基于第二网站信息，对访问网站进行启发式规则识别和/或视觉相似性识别；

在检测到第一网站信息中包括敏感信息、启发式规则识别结果为确定访问网站为非法网站、或者视觉相似性识别结果为确定访问网站为非法网站时，将确定访问网站为非法网站作为第一识别结果。

在一个实施例中，向服务器发送网站信息，以使服务器利用网站识别模型基于网站信息，对访问网站进行识别，包括：

向服务器发送网站信息，以使服务器利用黑名单数据库和白名单数据库基于网站信息，对访问网站进行识别，以及当在黑名单数据库未识别到与网站信息匹配的非法网站的网站信息且在白名单数据库均未识别到与网站信息匹配的合法网页的网站信息时，利用网站识别模型基于网站信息，对访问网站进行识别。

在一个实施例中，在向服务器发送网站信息之前，该方法还包括：

显示风险提示信息；

其中，向服务器发送网站信息，包括：

响应于接收针对访问网站的继续访问操作，向服务器发送网站信息。

本申请实施例提供了一种非法网站识别装置，所述装置包括：

第一抓取模块，用于抓取并解析访问网站在预设协议层的数据包，得到第一网站信息；其中，预设协议层包括数据链路层或网络接口层；

第一识别模块，用于基于网站信息，对访问网站进行识别，得到第一识别结果；其中，网站信息包括第一网站信息；

第一发送模块，用于在第一识别结果为确定访问网站为非法网站时，向服务器发送网站信息，以使服务器利用网站识别模型基于网站信息，对访问网站进行识别，得到第二识别结果；

第一接收模块，用于接收第二识别结果，并在第二识别结果为确定访问网站为非法网站时，确定访问网站为非法网站。

本申请实施例提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本申请任意实施例所提供的非法网站识别方法的步骤。

本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请任意实施例所提供的非法网站识别方法的步骤。

本申请实施例所提供的非法网站识别方法、装置、电子设备及存储介质，能够抓取并解析访问网站在预设协议层的数据包，得到第一网站信息；其中，预设协议层包括数据链路层或网络接口层；基于网站信息，对访问网站进行识别，得到第一识别结果；其中，网站信息包括第一网站信息；在第一识别结果为确定访问网站为非法网站时，向服务器发送网站信息，以使服务器利用网站识别模型基于网站信息，对访问网站进行识别，得到第二识别结果；接收第二识别结果，并在第二识别结果为确定访问网站为非法网站时，确定访问网站为非法网站。可见，上述技术方案，能够采用抓取并解析访问网站在预设协议层的数据包的方式得到第一网站信息，相比于传统的网页爬虫的方式获取网站信息，可得到访问网站的更准确的网站信息，从而提高基于网站信息对访问网站进行识别的准确性。并且，在基于网站信息确定访问网站为非法网站时，再次利用网络识别模型对访问网站进行识别，即对访问网站进行双重识别，可进一步提高对访问网站进行识别的准确性。并且，相比于现有技术中仅能够识别黑名单数据库中记载的已知的非法网站，可识别出未知非法网站，从而避免漏判非法的访问网站。

附图说明

图1为一个实施例中非法网站识别方法的应用场景图；

图2为一个实施例中非法网站识别方法的流程示意图；

图3为一个实施例中自动编码器的结构示意图；

图4为一个实施例中自动编码器的训练方法的流程示意图；

图5为一个实施例中非法网站识别装置的结构示意图；

图6为一个实施例中电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图2所示，提供了一种非法网站识别方法，该方法可适用于对访问网站识别其是否为非法网站的场景，该方法可以由非法网站识别装置来执行，该装置可以采用软件和/或硬件的方法实现，并可集成在电子设备上。本实施例以该方法应用于终端101，并通过终端101和服务器102的交互实现，如图1所示，其中，终端101可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。可以理解的是，该方法也可以应用于终端，且无需与服务器交互，当然，该方法也可以应用于服务器，且无需与终端无交互。

本实施例中，该方法包括以下步骤：

步骤201、抓取并解析访问网站在预设协议层的数据包，得到第一网站信息。

其中，预设协议层包括数据链路层或网络接口层。

在本公开实施例中，当终端通过浏览器访问访问网站时，终端与访问网站之间会通过网络传输数据，在此过程中，非法网站识别装置可以抓取预设协议层的数据包，并且对抓取到的数据包进行解析，得到访问网站的第一网站信息。

具体地，访问网站可以为终端访问的任意网站。例如，访问网站可以包括银行网站、电子商务网站等，但并不限于此。

具体地，当终端与访问网站之间基于七层模型(Open System Interconnection，OSI)、五层网络协议等规范传输数据时，预设协议层可以包括数据链路层；当终端与访问网站之间基于传输控制协议/网际协议(Transmission Control Protocol/InternetProtocol，TCP/IP)等规范传输数据时，预设协议层可以包括网络接口层。

具体地，非法网站识别装置抓取的数据包可以包括网页数据包和/或网址交互数据包。

其中，网页数据包为包括网页显示内容对应的数据的数据包。

其中，网址交互数据包为包括用户与访问网站的交互数据的数据包。用户与访问网站的交互数据例如可以包括访问网站的特征数据，如统一资源定位符(UniformResource Locator，URL)、互联网协议地址(Internet Protocol Address，IP地址)、域名服务器(Domain Name Server，DNS)等中的至少一项，但并不限于此；用户与访问网站的交互数据例如还可以包括用户通过键盘、鼠标等方式输入的用户数据，如姓名、身份证号、手机验证码、支付密码、汇款地址等，但并不限于此。

具体地，第一网站信息为对抓取的数据包进行解析之后得到的信息。

可以理解的是，现有技术中，通常通过网页爬虫的方式获取访问网站的网站信息，但是当某部分网站信息不在访问网站的显示内容中呈现，而是在隐藏在网络底层时，通过网页爬虫的方式可能无法获取到该部分网站信息，然而，在本公开实施例中，通过抓取并解析网络底层的数据包来获取访问网站的第一网站信息，由于可以抓取终端和访问之间交互的任意数据包，因此，可抓取到访问网站更准确、更全面、更详细的网站信息，进而有利于后续基于第一网站信息识别访问网站是否为非法网站的准确性。

步骤202、基于网站信息，对访问网站进行识别，得到第一识别结果。

其中，网站信息包括第一网站信息。

具体地，第一识别结果为确定访问网站为非法网站、或者确定访问网站为合法网站。

具体地，非法网站为会给用户带来个人财产和隐私安全威胁的网站。例如，非法网站包括钓鱼网站等。

具体地，合法网站为不会给用户带来个人财产和隐私安全威胁的安全网站。

可选地，步骤202可以包括：基于第一网站信息，对访问网站进行识别，得到第一识别结果。

具体地，当基于第一网站信息，对访问网站进行识别确定访问网站为非法网站时，确定第一识别结果为确定访问网站为非法网站；当基于第一网站信息，对访问网站进行识别确定访问网站为合法网站时，确定第一识别结果为确定访问网站为合法网站。

步骤203、在第一识别结果为确定访问网站为非法网站时，向服务器发送网站信息，以使服务器利用网站识别模型基于网站信息，对访问网站进行识别，得到第二识别结果。

具体地，服务器可以为任意具有本公开实施例中所述功能的服务器。例如，服务器可以是基于云平台使用Java编程开发的服务器，但并不限于此。

具体地，服务器中安装有网站识别模型，将网站信息输入网站识别模型，可以输出第二识别结果，第二识别结果为确定访问网站为非法网站、或者确定访问网站为合法网站。

具体地，网站识别模型可以为任意能够基于网站信息将访问网站进行分类的机器学习模型。并且，网站识别模型中内置的分类算法可以包括贝叶斯、SVM(支持向量机)、逻辑回归等，但并不限于此。

在一个示例中，网站识别模型可以包括自动编码器模型。自动编码器模型是一个进行无监督学习的深度学习模型，主要用来降低数据的维度，自动编码器的核心思想是把输入数据经过隐藏层的压缩处理得到相对的输出数据。自动编码器中的每一个神经元节点会学习权重使输入和输出之间的错误与不同最小化。示例性的，图3为一个实施例中自动编码器的结构示意图。参见图3，自动编码器由3层组成，通过样本对自动编码器进行大量的训练，使得整体的学习达到全局最优，从而建立网站识别模型。参见图4，训练方法分为如下两个步骤：1、自底向上的逐层预训练；2、自顶向下的权重微调，但并不限于此。

步骤204、接收第二识别结果，并在第二识别结果为确定访问网站为非法网站时，确定访问网站为非法网站。

具体地，当第二识别结果为确定访问网站为非法网站时，可以确定访问网站为非法网站；当第二识别结果为确定访问网站为合法网站时，可以确定访问网站为合法网站。

可以理解的是，网站识别模型经由大量样本训练完成，其对访问网站的识别更准确，因此，在第一识别结果和第二识别结果均确定访问网站为非法网站时，再最终确定访问网站为非法网站，提高了对访问网站的识别准确性，避免了将实际为合法网站的访问网站确定为非法网站，如此，既可以确保用户正常上网，又可提高用户上网安全性。

可选地，在第一识别结果为确定访问网站为合法网站时，可以直接最终确定访问访问为合法网站，以提高识别效率。当然，也可以继续向服务器发送网站信息，以使服务器利用网站识别模型，基于网站信息对访问网站进行二次识别，并将第二识别结果作为最终识别结果，以提高用户上网安全性。

上述非法网站识别方法中，能够抓取并解析访问网站在预设协议层的数据包，得到第一网站信息；其中，预设协议层包括数据链路层或网络接口层；基于网站信息，对访问网站进行识别，得到第一识别结果；其中，网站信息包括第一网站信息；在第一识别结果为确定访问网站为非法网站时，向服务器发送网站信息，以使服务器利用网站识别模型基于网站信息，对访问网站进行识别，得到第二识别结果；接收第二识别结果，并在第二识别结果为确定访问网站为非法网站时，确定访问网站为非法网站。可见，上述技术方案，能够采用抓取并解析访问网站在预设协议层的数据包的方式得到第一网站信息，相比于传统的网页爬虫的方式获取网站信息，可得到访问网站的更准确的网站信息，从而提高基于网站信息对访问网站进行识别的准确性。并且，在基于网站信息确定访问网站为非法网站时，再次利用网络识别模型对访问网站进行识别，即对访问网站进行双重识别，可进一步提高对访问网站进行识别的准确性。并且，相比于现有技术中仅能够识别黑名单数据库中记载的已知的非法网站，可识别出未知非法网站，从而避免漏判非法的访问网站。

在一个实施例中，抓取并解析访问网站在预设协议层的数据包，得到第一网站信息，可以包括：利用预设数据包抓取命令，抓取数据包；针对每个数据包，基于数据包中各字段对应的数据类型对各字段进行解析，得到第一网站信息。

具体地，预设数据包抓取命令可以包括tcpdump命令、或者其它本领域技术人员可知的命令，对此不作限定。

例如，对于tcpdump命令而言，其可以将网络底层中传送的数据包完全截获下来提供分析，具体地，当终端通过浏览器访问访问网站时，终端先向访问网站发送请求包，访问网站响应于请求包向终端反馈应答包，应答包中包括访问网站的IP地址，tcpdump命令可以基于访问网站的IP地址抓取后续终端和访问网站通过网络传输的数据包。

具体地，抓取数据包得到的数据可以存储在文件中，并在存储的文件中，对于数据包进行解析。数据包中通常包括多个字段，不同字段读取并进行解析，可得到第一网站信息。

例如，使用JAVA语言编写文件读取代码，对文件中的数据包的协议-状态代码-描述、应答头以及应答正文等进行读取。主要包含的字段有：Server：服务器名称；Date：时间；Content-Type：当前内容的多用途互联网邮件扩展类型(Multipurpose Internet MailExtensions，MIME)，基于当前内容的MIME可以确定数据类型，在解析数据包时需要使用同样的数据类型去进行解析；Content-Length：响应消息体的长度，决定文件读取操作的结尾；Content-Encoding：响应资源所使用的编码类型等。

上述方案中，利用预设数据包抓取命令抓取所述数据包，并针对每个数据包进行解析得到第一网站信息，可使第一网站信息的获取方式便捷、快速，有利于提高对访问网站进行识别的识别速度，且实现方式简单、易于操作，有利于降低非法网站识别的实现难度。

在一个实施例中，在针对每个数据包，基于数据包中各字段对应的数据类型对各字段进行解析，得到第一网站信息之前，该方法还包括：从数据包中，筛选出符合预设筛选条件的数据包，得到第一数据包；其中，针对每个数据包，基于数据包中各字段对应的数据类型对各字段进行解析，得到第一网站信息，包括：针对每个第一数据包，基于数据包中各字段对应的数据类型对各字段进行解析，得到第一网站信息。

具体地，第一数据包为符合预设筛选条件的数据包。

具体地，预设筛选条件的具体内容领域技术人员可根据实际情况设置，只要可以将与确定识别访问网站是否为非法网站无关的信息筛除即可，此处不作限定。例如，与确定识别访问网站是否为非法网站无关的信息包括本次连接的实际数据，数据的长度，IP地址等，可以保留，而本次连接时长等与确定识别访问网站是否为非法网站无关，可以筛除。

例如，针对tcpdump命令而言，其支持针对网络层、协议、主机、网络或端口等的过滤，并提供and、or、not等逻辑关系，因此，可通过and、or、not等构建预设筛选语句，以实现将符合预设筛选条件的数据包筛选出来。

上述方案中，通过将符合预设筛选条件的数据包(即第一数据包)筛选出来，并仅对第一数据包进行解析，可提高解析效率，进而提高第一网站信息的获取效率，有利于进一步提高对访问网站进行识别的效率。

在一个实施例中，基于网站信息，对访问网站进行识别，得到第一识别结果，包括：检测第一网站信息中是否包括敏感信息；在检测到第一网站信息中包括敏感信息时，将确定访问网站为非法网站作为第一识别结果。

具体地，敏感信息为泄露之后会给用户带来个人财产和隐私安全威胁的信息。示例性地，敏感信息包括与个人财产、个人隐私等相关的信息。例如，姓名、身份证号、手机验证码、支付密码、汇款地址等，但并不限于此。

在一个示例中，非法网站识别装置中可以预先存储有敏感信息列表，敏感信息列表中包括至少一个敏感信息。如此，将网站信息与敏感信息列表中的各敏感信息一一进行匹配，以检测网站信息中是否包括敏感信息。

在另一个示例中，非法网站识别装置还可以安装有敏感信息检测模型。如此，可以基于敏感信息检测模型检测网站信息中是否包括敏感信息。其中，敏感信息检测模型可以为任意能够实现敏感信息检测功能的机器学习模型。

具体地，在测到网站信息中包括敏感信息时，表明访问网站可能会给用户带来个人财产和隐私安全威胁，因此，可以将访问网站为非法网站，得到第一识别结果；在检测到网站信息中不包括敏感信息时，可以将访问网站为合法网站，得到第一识别结果。

具体地，终端可以实时抓取并解析访问网站在预设协议层的数据包，也可以在每次终端向访问网站发送访问请求后，启动抓取并解析访问网站在预设协议层的数据包，此处不作限定。因此，非法网站识别装置可能会多次抓取并解析访问网站在预设协议层的数据包，当非法网站识别装置基于首次抓取并解析访问网站在预设协议层的数据包得到的第一网站信息确定访问网站为合法网站时，还可以继续获取抓取并解析访问网站在预设协议层的数据包，一旦基于某次抓取并解析访问网站在预设协议层的数据包得到的网站信息确定访问网站为非法网站时，即可确定该访问网站为非法网站。如此，可避免对访问网站的漏判。

上述方案中，基于第一网站信息中是否包括敏感信息确定访问网站是否为非法网站，实现方式简单，易于操作，有利于提高第一识别结果的获取效率，从而进一步提高对访问网站进行识别的效率。

在一个实施例中，该方法还包括：利用网络爬取技术，获取访问网站的第二网站信息；基于第二网站信息，对访问网站进行启发式规则识别和/或视觉相似性识别；其中，基于网站信息，对访问网站进行识别，得到第一识别结果，包括：在检测到第一网站信息中包括敏感信息、启发式规则识别结果为确定访问网站为非法网站、或者视觉相似性识别结果为确定访问网站为非法网站时，将确定访问网站为非法网站作为第一识别结果。

具体地，第二网站信息为基于网络爬虫方式获取的网站信息。

具体地，基于启发式规则的非法网站识别，依据非法网站的网页之间存在的相似性设计和实现启发式规则，进而发现和识别非法网站。

具体地，视觉相似性识别利用非法网站的网页与合法网站的网页的视觉相似度阈值来发现和识别非法网站。

具体地，在检测到第一网站信息中包括敏感信息、启发式规则识别结果为确定访问网站为非法网站、或者视觉相似性识别结果为确定访问网站为非法网站时，表明访问网站为非法网站的几率较大，可以确定访问网站为非法网站，得到第一识别结果。

可选地，在检测到第一网站信息中不包括敏感信息、启发式规则识别结果为确定访问网站为合法网站、或者视觉相似性识别结果为确定访问网站为合法网站时，表明访问网站为合法网站的几率较大，可以确定访问网站为合法网站，得到第一识别结果。

可选地，在检测到第一网站信息中包括敏感信息，启发式规则识别结果和/或视觉相似性识别结果为确定访问网站为合法网站时，表明当前难以确定访问网站是否为非法网站，此时，可确定访问网站为非法网站，得到第一识别结果，以便后续采用准确率更高的网络识别模型再次对访问网站进行识别，以避免在访问网站为非法网站时漏判。在检测到第一网站信息中不包括敏感信息，启发式规则识别结果和/或视觉相似性识别结果为确定访问网站为非法网站时同理，此处不再赘述。

上述方案中，基于第一网站信息中是否包括敏感信息、启发式规则识别以及视觉相似性识别对访问网站进行识别，得到第一识别结果，可提高第一识别结果的准确性，进而提高对访问网站最终识别结果的准确性。此外，在第一识别结果为确定访问网站为合法网站时，若直接确定访问网站为合法网站，使得该次识别过程无需与服务器交互，大大的节省了识别时间，有利于缩短识别非法网站的时间，提高了用户体验。

在一个实施例中，向服务器发送网站信息，以使服务器利用网站识别模型基于网站信息，对访问网站进行识别，包括：向服务器发送网站信息，以使服务器利用黑名单数据库和白名单数据库基于网站信息，对访问网站进行识别，以及当在黑名单数据库未识别到与网站信息匹配的非法网站的网站信息且在白名单数据库均未识别到与网站信息匹配的合法网页的网站信息时，利用网站识别模型基于网站信息，对访问网站进行识别。

具体地，黑名单数据库和白名单数据库可以安装在服务器上，也可以位于服务器所在的云平台，并且服务器可以与黑名单数据库和白名单数据库进行通讯，例如，云平台数据库上可以搭建数据库MySQL，从而搭建黑名单数据库和白名单数据库，但并不限于此。

具体地，黑名单数据库中包括至少一个非法网站的网站信息。

具体地，白名单数据库中包括至少一个合法网站的网站信息。

具体地，在黑名单数据库和白名单数据库中进行匹配时，可以根据URL、IP地址、DNS等中的至少一项进行匹配，此处不作限定。

具体地，当在黑名单数据库均未识别到与网站信息匹配的非法网站的网站信息且在白名单数据库均未识别到与网站信息匹配的合法网页的网站信息时，表明通过黑名单数据库和白名单数据库无法确定出访问网站是否为非法网站，此时，可以再基于网站识别模型基于网站信息对访问网站进行识别，最终确定出访问网站是否为非法网站。

可选地，当服务器在黑名单数据库识别到与网站信息匹配的非法网站的网站信息，或者，在白名单数据库均识别到与网站信息匹配的合法网页的网站信息时，接收服务器发送的黑名单数据库和白名单数据库对应的识别结果(即第三识别结果)，并在第三识别结果为确定访问网站为非法网站时，确定访问网站为非法网站，在第三识别结果为确定访问网站为合法网站时，确定访问网站为合法网站。

具体地，当服务器在黑名单数据库识别到与网站信息匹配的非法网站的网站信息时，可以确定出访问网站为非法网站；当服务器在白名单数据库识别到与网站信息匹配的合法网页的网站信息时，可以确定出访问网站为合法网站。此时，已经可以准确确定出访问网站是否为非法网站，可以不再继续基于网站识别模型进行识别，以缩短识别时间，提高用户体验。当然，本领域技术人员也可以继续基于网站识别模型进行识别，对此不作限定。

上述方案中，先通过黑名单数据库和白名单数据库对访问网站进行识别，具有快速、实施简单、没有误报的效果，并且在通过黑名单数据库和白名单数据库无法确定出访问网站是否为非法网站时，再基于网站识别模型对网站信息进行识别，可实现对位于黑名单数据库和白名单之外的访问网站进行准确识别，避免出现漏判的问题。

在一个实施例中，服务器还用于根据第二识别结果，将网站信息添加至黑名单数据库、或者白名单数据库。

具体地，当第二识别结果为确定访问网站为合法网站，可以将访问网站的网站信息添加至白名单数据库；当第二识别结果为确定访问网站为非法网站，可以将访问网站的网站信息添加至黑名单数据库。

可选地，终端包括本地数据库，本地数据库中存储有终端历史访问过的历史访问网站的网站信息以及历史访问网站是否为非法网站的信息。终端的本地数据库和黑名单数据库、白名单数据库可以进行同步。

具体地，终端可以向服务器发送握手认证身份请求，以使服务器基于握手认证身份请求中的身份认证信息对终端进行身份认证；在通过身份认证时，终端发起HttpRequest，将本地数据库中的网站信息传至服务器，以使服务器通过解析数据，得出终端的本地数据库与黑名单数据库和白名单数据库的差异，并且将需要更新的数据(例如JSON格式的数据)回传至终端，从而使得终端的本地数据库与黑名单数据库和白名单数据库进行同步。

上述方案中，通过将访问网站是否为非法网站的信息同步至黑名单数据库、白名单数据库，可以建立更加全面的黑名单数据库、白名单数据库，解决黑名单数据库和白名单数据库更新滞后的问题，提高黑名单数据库和白名单数据库的使用效果。

在一个实施例中，在向服务器发送网站信息之前，该方法还包括：显示风险提示信息；其中，向服务器发送网站信息，包括：响应于接收针对访问网站的继续访问操作，向服务器发送网站信息。

具体地，风险提示信息用于提示用户访问网站存在安全风险，其具体内容本领域技术人员可根据实际情况设置，此处不作限定。

具体地，针对访问网站的继续访问操作可以包括通过鼠标、键盘语音等方式触发继续访问控件的操作，但并不限于此。

具体地，当接收针对访问网站的继续访问操作时，表明用户想要继续访问访问网站，此时，可向服务器发送网站信息，以便后续服务器基于网站信息对访问网站进行识别。

可选地，响应于接收针对访问网站的阻止访问操作，不再向服务器发送网站信息。

具体地，针对访问网站的阻止访问操作可以包括通过鼠标、键盘语音等方式触发阻止访问控件的操作，但并不限于此。

具体地，当接收针对访问网站的阻止访问操作时，表明用户不想再继续访问访问网站，此时，可丢弃访问网站的网站数据，不再向服务器发送网站信息，进而无需服务器后续基于网站信息对访问网站进行识别。

上述方案中，通过响应于接收针对访问网站的继续访问操作，再向服务器发送网站信息，即再与服务器交互，否则不再与服务器交互，有利于节省服务器计算资源。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种非法网站识别装置，包括：

第一抓取模块501，用于抓取并解析访问网站在预设协议层的数据包，得到第一网站信息；其中，预设协议层包括数据链路层或网络接口层；

第一识别模块502，用于基于网站信息，对访问网站进行识别，得到第一识别结果；其中，网站信息包括第一网站信息；

第一发送模块503，用于在第一识别结果为确定访问网站为非法网站时，向服务器发送网站信息，以使服务器利用网站识别模型基于网站信息，对访问网站进行识别，得到第二识别结果；

第一接收模块504，用于接收第二识别结果，并在第二识别结果为确定访问网站为非法网站时，确定访问网站为非法网站。

可选地，第一抓取模块501，包括：

第一抓取子模块，用于利用预设数据包抓取命令，抓取数据包；

第一解析子模块，用于针对每个数据包，基于数据包中各字段对应的数据类型对各字段进行解析，得到第一网站信息。

可选地，该装置还可以包括：

第一筛选子模块，用于在针对每个数据包，基于数据包中各字段对应的数据类型对各字段进行解析，得到第一网站信息之前，从数据包中，筛选出符合预设筛选条件的数据包，得到第一数据包；

其中，第一解析子模块，具体用于针对每个第一数据包，基于数据包中各字段对应的数据类型对各字段进行解析，得到第一网站信息。

可选地，第一识别模块502包括：

第一检测子模块，用于检测第一网站信息中是否包括敏感信息；

第一确定子模块，用于在检测到第一网站信息中包括敏感信息时，将确定访问网站为非法网站作为第一识别结果。

可选地，该装置还包括：

第一获取模块，用于利用网络爬取技术，获取访问网站的第二网站信息；

其中，第一识别模块502包括：

第一识别子模块，用于基于第二网站信息，对访问网站进行启发式规则识别和/或视觉相似性识别；

第二确定子模块，用于在检测到第一网站信息中包括敏感信息、启发式规则识别结果为确定访问网站为非法网站、或者视觉相似性识别结果为确定访问网站为非法网站时，将确定访问网站为非法网站作为第一识别结果。

可选地，第一发送模块503包括第一发送子模块，用于向服务器发送网站信息，以使服务器利用黑名单数据库和白名单数据库基于网站信息，对访问网站进行识别，以及当在黑名单数据库未识别到与网站信息匹配的非法网站的网站信息且在白名单数据库均未识别到与网站信息匹配的合法网页的网站信息时，利用网站识别模型基于网站信息，对访问网站进行识别。

可选地，该装置还包括：

第一显示模块，用于在向服务器发送网站信息之前，显示风险提示信息；

其中，第一发送模块503包括第二发送子模块，用于响应于接收针对访问网站的继续访问操作，向服务器发送网站信息。

本申请实施例提供的非法网站识别装置，能够抓取并解析访问网站在预设协议层的数据包，得到第一网站信息；其中，预设协议层包括数据链路层或网络接口层；基于网站信息，对访问网站进行识别，得到第一识别结果；其中，网站信息包括第一网站信息；在第一识别结果为确定访问网站为非法网站时，向服务器发送网站信息，以使服务器利用网站识别模型基于网站信息，对访问网站进行识别，得到第二识别结果；接收第二识别结果，并在第二识别结果为确定访问网站为非法网站时，确定访问网站为非法网站。可见，上述技术方案，能够采用抓取并解析访问网站在预设协议层的数据包的方式得到第一网站信息，相比于传统的网页爬虫的方式获取网站信息，可得到访问网站的更准确的网站信息，从而提高基于网站信息对访问网站进行识别的准确性。并且，在基于网站信息确定访问网站为非法网站时，再次利用网络识别模型对访问网站进行识别，即对访问网站进行双重识别，可进一步提高对访问网站进行识别的准确性。并且，相比于现有技术中仅能够识别黑名单数据库中记载的已知的非法网站，可识别出未知非法网站，从而避免漏判非法的访问网站。

关于非法网站识别装置的具体限定可以参见上文中对于非法网站识别方法的限定，在此不再赘述。上述非法网站识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种电子设备，该电子设备可以是终端，其内部结构图可以如图6所示。该电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、近场通信(NFC)或其他技术实现。该计算机程序被处理器执行时以实现一种非法网站识别方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的非法网站识别装置可以实现为一种计算机程序的形式，计算机程序可在如图6所示的电子设备上运行。电子设备的存储器中可存储组成该非法网站识别装置的各个程序模块，比如，图5所示的第一抓取模块501、第一识别模块502、第一发送模块503、以及第一接收模块504。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的非法网站识别方法中的步骤。

例如，图6所示的电子设备可以通过如图5所示的装置中的第一抓取模块501，执行抓取并解析访问网站在预设协议层的数据包，得到第一网站信息；其中，预设协议层包括数据链路层或网络接口层；电子设备可以通过第一识别模块502，执行基于网站信息，对访问网站进行识别，得到第一识别结果；其中，网站信息包括第一网站信息；电子设备可以通过第一发送模块503，执行在第一识别结果为确定访问网站为非法网站时，向服务器发送网站信息，以使服务器利用网站识别模型基于网站信息，对访问网站进行识别，得到第二识别结果；电子设备可以通过第一接收模块504，执行接收第二识别结果，并在第二识别结果为确定访问网站为非法网站时，确定访问网站为非法网站。

在一个实施例中，提供了一种电子设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：抓取并解析访问网站在预设协议层的数据包，得到第一网站信息；其中，预设协议层包括数据链路层或网络接口层；基于网站信息，对访问网站进行识别，得到第一识别结果；其中，网站信息包括第一网站信息；在第一识别结果为确定访问网站为非法网站时，向服务器发送网站信息，以使服务器利用网站识别模型基于网站信息，对访问网站进行识别，得到第二识别结果；接收第二识别结果，并在第二识别结果为确定访问网站为非法网站时，确定访问网站为非法网站。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：抓取并解析访问网站在预设协议层的数据包，得到第一网站信息，包括：利用预设数据包抓取命令，抓取数据包；针对每个数据包，基于数据包中各字段对应的数据类型对各字段进行解析，得到第一网站信息。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：在针对每个数据包，基于数据包中各字段对应的数据类型对各字段进行解析，得到第一网站信息之前，还包括：从数据包中，筛选出符合预设筛选条件的数据包，得到第一数据包；其中，针对每个数据包，基于数据包中各字段对应的数据类型对各字段进行解析，得到第一网站信息，包括：针对每个第一数据包，基于数据包中各字段对应的数据类型对各字段进行解析，得到第一网站信息。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：基于网站信息，对访问网站进行识别，得到第一识别结果，包括：检测第一网站信息中是否包括敏感信息；在检测到第一网站信息中包括敏感信息时，将确定访问网站为非法网站作为第一识别结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：还包括：利用网络爬取技术，获取访问网站的第二网站信息；其中，基于网站信息，对访问网站进行识别，得到第一识别结果，包括：基于第二网站信息，对访问网站进行启发式规则识别和/或视觉相似性识别；在检测到第一网站信息中包括敏感信息、启发式规则识别结果为确定访问网站为非法网站、或者视觉相似性识别结果为确定访问网站为非法网站时，将确定访问网站为非法网站作为第一识别结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：向服务器发送网站信息，以使服务器利用网站识别模型基于网站信息，对访问网站进行识别，包括：向服务器发送网站信息，以使服务器利用黑名单数据库和白名单数据库基于网站信息，对访问网站进行识别，以及当在黑名单数据库未识别到与网站信息匹配的非法网站的网站信息且在白名单数据库均未识别到与网站信息匹配的合法网页的网站信息时，利用网站识别模型基于网站信息，对访问网站进行识别。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：在向服务器发送网站信息之前，还包括：显示风险提示信息；其中，向服务器发送网站信息，包括：响应于接收针对访问网站的继续访问操作，向服务器发送网站信息。

本申请实施例，能够抓取并解析访问网站在预设协议层的数据包，得到第一网站信息；其中，预设协议层包括数据链路层或网络接口层；基于网站信息，对访问网站进行识别，得到第一识别结果；其中，网站信息包括第一网站信息；在第一识别结果为确定访问网站为非法网站时，向服务器发送网站信息，以使服务器利用网站识别模型基于网站信息，对访问网站进行识别，得到第二识别结果；接收第二识别结果，并在第二识别结果为确定访问网站为非法网站时，确定访问网站为非法网站。可见，上述技术方案，能够采用抓取并解析访问网站在预设协议层的数据包的方式得到第一网站信息，相比于传统的网页爬虫的方式获取网站信息，可得到访问网站的更准确的网站信息，从而提高基于网站信息对访问网站进行识别的准确性。并且，在基于网站信息确定访问网站为非法网站时，再次利用网络识别模型对访问网站进行识别，即对访问网站进行双重识别，可进一步提高对访问网站进行识别的准确性。并且，相比于现有技术中仅能够识别黑名单数据库中记载的已知的非法网站，可识别出未知非法网站，从而避免漏判非法的访问网站。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：抓取并解析访问网站在预设协议层的数据包，得到第一网站信息；其中，预设协议层包括数据链路层或网络接口层；基于网站信息，对访问网站进行识别，得到第一识别结果；其中，网站信息包括第一网站信息；在第一识别结果为确定访问网站为非法网站时，向服务器发送网站信息，以使服务器利用网站识别模型基于网站信息，对访问网站进行识别，得到第二识别结果；接收第二识别结果，并在第二识别结果为确定访问网站为非法网站时，确定访问网站为非法网站。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，比如静态随机存取存储器(Static Random Access Memory，SRAM)和动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 非法网站识别方法、装置、电子装置和存储介质 [P] . 中国专利： CN114817808A . 2022-07-29
2. 基于区块链的非法网站识别方法、装置、设备及存储介质 [P] . 中国专利： CN114117264A . 2022-03-01
3. METHOD AND DEVICE FOR IDENTIFYING WRIST, METHOD FOR IDENTIFYING GESTURE, ELECTRONIC EQUIPMENT AND COMPUTER-READABLE STORAGE MEDIUM [P] . 美国专利： US2019332858A1 . 2019-10-31

机译：腕部识别方法和装置，手势识别方法，电子设备和计算机可读存储介质
4. PIXEL POINT IDENTIFICATION METHOD AND APPARATUS, ILLUMINATION RENDERING METHOD AND APPARATUS, ELECTRONIC DEVICE AND STORAGE MEDIUM [P] . WO2021147408A1 . 2021-07-29

机译：像素点识别方法和装置，照明渲染方法和装置，电子设备和存储介质
5. MODEL TRAINING METHOD AND APPARATUS, IMAGE RECOGNITION METHOD AND APPARATUS, ELECTRONIC DEVICE, AND STORAGE MEDIUM [P] . WO2021244425A1 . 2021-12-09

机译：模型训练方法和装置，图像识别方法和装置，电子设备和存储介质