首页> 中国专利> 伪原创网站的识别方法及装置

伪原创网站的识别方法及装置

摘要

本发明实施例公开了一种伪原创网站的识别方法及装置,涉及信息技术领域,可以提高伪原创网站的识别准确率。所述方法包括:首先提取网站中包含的各个网页和所述各个网页分别对应的样式指纹,然后分别计算所述各个网页分别对应的样式指纹与伪原创样式指纹之间的海明距离,再统计所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量,若所述网页数量大于或等于第二预设阈值,则确定所述网站为伪原创网站。

著录项

  • 公开/公告号CN104572787A

    专利类型发明专利

  • 公开/公告日2015-04-29

    原文格式PDF

  • 申请/专利权人 腾讯科技(深圳)有限公司;

    申请/专利号CN201310522517.2

  • 发明设计人 陈志高;

    申请日2013-10-29

  • 分类号G06F17/30(20060101);

  • 代理机构11274 北京中博世达专利商标代理有限公司;

  • 代理人申健

  • 地址 518000 广东省深圳市福田区振兴路赛格科技园2栋东403室

  • 入库时间 2023-12-18 08:25:28

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-03-15

    授权

    授权

  • 2016-08-17

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20131029

    实质审查的生效

  • 2015-04-29

    公开

    公开

说明书

技术领域

本发明涉及信息技术领域,特别涉及一种伪原创网站的识别方法及装置。

背景技术

随着网络技术的不断发展,通过网络获取信息的用户人数也越来越多,能 够为用户提供信息的网站也随之增多。然而随着网站数量的不断增多,不同网 站之间信息的重复率也随之增加,因此出现了伪原创网站,伪原创网站中的网 页通常为对原创网站中的网页进行再加工生成的。

目前,对伪原创网站的识别方式通常为首先挖掘伪原创特征词,若某一个 网页包含有伪原创特征词,则确定该网页为伪原创网页,并且当一个网站包含 有大量伪原创网页时,确定该网站为伪原创网站。然而由于自然语言中词语存 在多义性的问题,因此现有伪原创特征词的挖掘准确率较低,从而造成基于伪 原创特征词识别伪原创网站的准确率较低。

发明内容

本发明实施例提供一种伪原创网站的识别方法及装置,可以提高伪原创网 站的识别准确率。

本发明实施例采用的技术方案为:

一种伪原创网站的识别方法,包括:

提取网站中包含的各个网页和所述各个网页分别对应的样式指纹;

分别计算所述各个网页分别对应的样式指纹与伪原创样式指纹之间的海明 距离;

统计所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等于第 一预设阈值的网页数量;

若所述网页数量大于或等于第二预设阈值,则确定所述网站为伪原创网站。

一种伪原创网站的识别装置,包括:

提取单元,用于提取网站中包含的各个网页和所述各个网页分别对应的样 式指纹;

计算单元,用于分别计算所述提取单元提取的所述各个网页分别对应的样 式指纹与伪原创样式指纹之间的海明距离;

统计单元,用于统计所述计算单元计算的所述各个网页中与所述伪原创样 式指纹之间的海明距离大于或等于第一预设阈值的网页数量;

确定单元,用于若所述统计单元统计所述网页数量大于或等于第二预设阈 值,则确定所述网站为伪原创网站。

本发明实施例提供的伪原创网站的识别方法及装置,首先提取网站中包含 的各个网页和所述各个网页分别对应的样式指纹,然后分别计算所述各个网页 分别对应的样式指纹与伪原创样式指纹之间的海明距离,再统计所述各个网页 中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数 量,若所述网页数量大于或等于第二预设阈值,则确定所述网站为伪原创网站。 与目前基于伪原创特征词识别伪原创网站相比,本发明实施例通过网页的样式 指纹识别伪原创网站,可以提高伪原创网站的识别准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技 术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅 仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳 动的前提下,还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种伪原创网站的识别方法流程图;

图2为本发明实施例提供的另一种伪原创网站的识别方法流程图;

图3为本发明实施例提供的一种伪原创网站的识别装置结构示意图;

图4为本发明实施例提供的另一种伪原创网站的识别装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造 性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

为使本发明技术方案的优点更加清楚,下面结合附图和实施例对本发明作 详细说明。

本发明实施例提供一种伪原创网站的识别方法,如图1所示,所述方法包括:

101、提取网站中包含的各个网页和所述各个网页分别对应的样式指纹。

其中,每一个网站下都会包含有多个网页,每一个网页对应的样式指纹为 一种标识该网页的64位数字码,是基于网页html(网页超文本标记语言)源代 码的dom树结构中的各个节点生成的。

102、分别计算所述各个网页分别对应的样式指纹与伪原创样式指纹之间的 海明距离。

其中,数据库中保存有预先挖掘的大量伪原创样式指纹。

具体地,依次比对网页对应的样式指纹的64位数字码与伪原创样式指纹的 64位数字码,并且统计相同位上数字码不同的次数,将所述次数作为网页对应 的样式指纹与伪原创样式指纹之间的海明距离。例如,网页对应的样式指纹与 伪原创样式指纹的第24位、第50位对应的数字码不同,则网页对应的样式指纹 与伪原创样式指纹之间的海明距离为2。

103、统计所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等 于第一预设阈值的网页数量。

其中,第一预设阈值为海明距离上限值,可以为3、5、6等,具体可以根据 实际需求进行配置,本发明实施例不做限定。

104、若所述网页数量大于或等于第二预设阈值,则确定所述网站为伪原创 网站。

其中,第二预设阈值为网页数量上限值,可以根据实际需求进行配置,本 发明实施例不做限定。当网页数量大于或等于第二预设阈值时,说明该网站包 含的网页中,伪原创网页的数量过多,从而确定该网站为伪原创网站,提高了 伪原创网站的识别准确率。

本发明实施例提供的一种伪原创网站的识别方法,首先提取网站中包含的 各个网页和所述各个网页分别对应的样式指纹,然后分别计算所述各个网页分 别对应的样式指纹与伪原创样式指纹之间的海明距离,再统计所述各个网页中 与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量, 若所述网页数量大于或等于第二预设阈值,则确定所述网站为伪原创网站。与 目前基于伪原创特征词识别伪原创网站相比,本发明实施例通过网页的样式指 纹识别伪原创网站,可以提高伪原创网站的识别准确率。

本发明实施例提供另一种伪原创网站的识别方法,如图2所示,所述方法包 括:

201、计算各个网站中包含的网页对应的样式指纹,并且建立样式指纹与网 页之间的对应关系。

其中,通常可以对用户近期浏览网站中的全部网页进行样式指纹的获取。 一个样式指纹可以对应一个或多个网页,每一个网页分别对应一个URL(Uniform  Resource Locator,统一资源定位符),URL用于标识网页对应的网站链接地址。

对于本发明实施例,步骤201具体可以包括:首先创建网页节点样式集合, 然后根据所述各个节点分别对应的字符串,生成所述网页对应的样式字符串, 最后计算所述网页对应的样式字符串的simhash(局部敏感哈希)值,并将所述 simhash值作为所述网页对应的样式指纹。

其中,网页节点样式集合中包含有网页的各个节点分别对应的字符串,所 述各个节点用于标识网页各个区域的显示方式,所述字符串包括所述各个节点 分别对应的节点名称、节点样式属性、和节点样式属性值。节点样式属性具体 可以为颜色、字体大小、显示范围等,节点样式属性值为各个节点样式属性的 具体配置,例如,对于节点样式属性颜色,节点样式属性值可以为红色、蓝色 等;对于节点样式属性字体大小,节点样式属性值可以为字体大小的具体赋值。

对于本发明实施例,创建网页节点样式集合的步骤具体可以包括:首先获 取所述网页对应的html源代码,并根据所述网页对应的html源代码,构建所述 网页对应的dom树结构,然后提取所述dom树结构上各个节点分别对应的节点名 称、节点属性、和节点属性值,最后根据所述各个节点分别对应的节点名称、 节点属性、和节点属性值,生成所述各个节点分别对应的字符串,并保存在所 述网页节点样式集合中。例如,某一个节点的节点名称为节点1,则节点1对应 的字符串的形式可以为(节点1颜色红色字体大小小四)。

对于本发明实施例,根据网页的各个节点分别对应的字符串,生成所述网 页对应的样式字符串的步骤具体可以包括:首先生成空字符串S,然后判断所述 网页节点样式集合包含的字符串中是否存在相同字符串,若不存在相同字符串, 则将所述各个节点分别对应的字符串依次添加到所述空字符串S,若存在相同字 符串,则从所述相同字符串中提取任意一个字符串,并将去重后的各个字符串 依次添加到所述空字符串S。

其中,由于网页对应的各个节点中,可能存在相同的节点,因此网页节点 样式集合包含的字符串中,可能存在重复的字符串。本发明实施例通过对网页 节点样式集合包含的字符串进行去重操作后,再生成该网页的样式字符串,可 以进一步提高伪原创网站的识别准确率。对于上述将所述各个节点分别对应的 字符串依次添加到所述空字符串S的方式,具体可以为将所述各个节点分别对应 的字符串依次添加到所述空字符串S的末尾或开头,本发明实施例不做限定。

对于本发明实施例,计算所述网页对应的样式字符串的simhash值的步骤具 体可以包括:首先将网页对应的样式字符串进行分词,然后将样式字符串中每3 个字母为一组依次计算各组hash值,最后将所有的hash值融合,获得最终的hash 值为simhash值。其中,还可以根据网页对应的样式字符串,采用其他hash算法 计算网页对应的样式指纹,本发明实施例不做限定。

202、根据样式指纹与网页之间的对应关系,获取样式指纹对应的URL数量。

其中,数据库中保存有样式指纹对应的网页和各个网页分别对应的URL,根 据样式指纹与网页之间的对应关系可以获取到样式指纹对应的网页,再根据各 个网页分别对应的URL,从而可以获取到样式指纹对应的URL数量。

203、根据所述样式指纹对应的URL数量,确定与所述样式指纹对应的网站 数量。

其中,由于不同网站对应的URL不同,因此根据样式指纹对应的URL数量, 可以确定样式指纹对应的网站数量,即将样式指纹对应的URL数量作为样式指纹 对应的网站数量。

204、若所述样式指纹对应的网站数量大于或等于第三预设阈值时,确定所 述样式指纹为伪原创样式指纹。

其中,第三预设阈值为网站数量上限值,具体可以根据实际需求进行配置, 例如为10,本发明实施例不做限定。

205、提取网站中包含的各个网页和所述各个网页分别对应的样式指纹。

其中,每一个网站下都会包含有多个网页,每一个网页对应的样式指纹为 一种标识该网页的64位数字码,是基于网页html(网页超文本标记语言)源代 码的dom树结构中的各个节点生成的。

206、分别计算所述各个网页分别对应的样式指纹与伪原创样式指纹之间的 海明距离。

其中,数据库中保存有预先挖掘的大量伪原创样式指纹。

具体地,依次比对网页对应的样式指纹的64位数字码与伪原创样式指纹的 64位数字码,并且统计相同位上数字码不同的次数,将所述次数作为网页对应 的样式指纹与伪原创样式指纹之间的海明距离。例如,网页对应的样式指纹与 伪原创样式指纹的第16位、第20位、和第40位对应的数字码不同,则网页对应 的样式指纹与伪原创样式指纹之间的海明距离为3。

207、统计所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等 于第一预设阈值的网页数量。

其中,第一预设阈值为海明距离上限值,可以为4、8、9等,具体可以根据 实际需求进行配置,本发明实施例不做限定。

208、若所述网页数量大于或等于第二预设阈值,则确定所述网站为伪原创 网站。

其中,第二预设阈值为网页数量上限值,可以根据实际需求进行配置,本 发明实施例不做限定。当网页数量大于或等于第二预设阈值时,说明该网站包 含的网页中,伪原创网页的数量过多,从而确定该网站为伪原创网站,提高了 伪原创网站的识别准确率。

本发明实施例提供的另一种伪原创网站的识别方法,首先提取网站中包含 的各个网页和所述各个网页分别对应的样式指纹,然后分别计算所述各个网页 分别对应的样式指纹与伪原创样式指纹之间的海明距离,再统计所述各个网页 中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数 量,若所述网页数量大于或等于第二预设阈值,则确定所述网站为伪原创网站。 与目前基于伪原创特征词识别伪原创网站相比,本发明实施例通过网页的样式 指纹识别伪原创网站,可以提高伪原创网站的识别准确率。

进一步地,作为图1所示方法的具体实现,本发明实施例提供一种伪原创网 站的识别装置,如图3所示,所述装置的实体可以为服务器,所述装置可以包括: 提取单元31、计算单元32、统计单元33、确定单元34。

提取单元31,可以用于提取网站中包含的各个网页和所述各个网页分别对 应的样式指纹。

计算单元32,可以用于分别计算所述提取单元31提取的所述各个网页分别 对应的样式指纹与伪原创样式指纹之间的海明距离。

统计单元33,可以用于统计所述计算单元32计算的所述各个网页中与所述 伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量。

确定单元34,可以用于若所述统计单元33统计所述网页数量大于或等于第 二预设阈值,则确定所述网站为伪原创网站。

需要说明的是,本发明实施例提供的装置所涉及各功能单元的对应描述, 可以参考图1中的相应描述,在此不再赘述。

再进一步地,作为图2所示方法的具体实现,本发明实施例提供另一种伪原 创网站的识别装置,如图4所示,所述装置的实体可以为服务器,所述装置可以 包括:提取单元41、计算单元42、统计单元43、确定单元44。

提取单元41,可以用于提取网站中包含的各个网页和所述各个网页分别对 应的样式指纹。

计算单元42,可以用于分别计算所述提取单元41提取的所述各个网页分别 对应的样式指纹与伪原创样式指纹之间的海明距离。

统计单元43,可以用于统计所述计算单元42计算的所述各个网页中与所述 伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量。

确定单元44,可以用于若所述统计单元43统计所述网页数量大于或等于第 二预设阈值,则确定所述网站为伪原创网站。

所述装置还可以包括:获取单元45。

获取单元45,可以用于获取伪原创样式指纹。

获取单元45可以包括:第一计算模块4501、建立模块4502、获取模块4503、 确定模块4504。

第一计算模块4501,可以用于计算各个网站中包含的网页对应的样式指纹。

建立模块4502,可以用于建立样式指纹与网页之间的对应关系。

获取模块4503,可以用于根据样式指纹与网页之间的对应关系,获取样式 指纹对应的统一资源定位符(URL)数量,其中,每一个网页对应一个URL。

确定模块4504,可以用于根据所述样式指纹对应的URL数量,确定与所述样 式指纹对应的网站数量。

确定模块4504,还可以用于若所述样式指纹对应的网站数量大于或等于第 三预设阈值时,确定所述样式指纹为伪原创样式指纹。

计算单元42可以包括:创建模块4201、生成模块4202、第二计算模块4203。

创建模块4201,可以用于创建网页节点样式集合,所述网页节点样式集合 中包含有网页的各个节点分别对应的字符串,所述各个节点用于标识网页各个 区域的显示方式,所述字符串包括所述各个节点分别对应的节点名称、节点样 式属性、和节点样式属性值。

生成模块4202,可以用于根据所述各个节点分别对应的字符串,生成所述 网页对应的样式字符串。

第二计算模块4203,可以用于计算所述网页对应的样式字符串的simhash 值,并将所述simhash值作为所述网页对应的样式指纹。

创建模块4201,可以用于获取所述网页对应的html源代码,并根据所述网 页对应的html源代码,构建所述网页对应的dom树结构;提取所述dom树结构上 各个节点分别对应的节点名称、节点属性、和节点属性值;根据所述各个节点 分别对应的节点名称、节点属性、和节点属性值,生成所述各个节点分别对应 的字符串,并保存在所述网页节点样式集合中。

生成模块4202,可以用于生成空字符串S;判断所述网页节点样式集合包含 的字符串中是否存在相同字符串;若不存在相同字符串,则将所述各个节点分 别对应的字符串依次添加到所述空字符串S;若存在相同字符串,则从所述相同 字符串中提取任意一个字符串,并将去重后的各个字符串依次添加到所述空字 符串S。

需要说明的是,本发明实施例提供的装置所涉及各功能单元的对应描述, 可以参考图2中的相应描述,在此不再赘述。

本发明实施例提供的伪原创网站的识别装置,首先提取网站中包含的各个 网页和所述各个网页分别对应的样式指纹,然后分别计算所述各个网页分别对 应的样式指纹与伪原创样式指纹之间的海明距离,再统计所述各个网页中与所 述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量,若所 述网页数量大于或等于第二预设阈值,则确定所述网站为伪原创网站。与目前 基于伪原创特征词识别伪原创网站相比,本发明实施例通过网页的样式指纹识 别伪原创网站,可以提高伪原创网站的识别准确率。

本发明实施例提供的伪原创网站的识别装置可以实现上述提供的方法实施 例,具体功能实现请参见方法实施例中的说明,在此不再赘述。本发明实施例 提供的伪原创网站的识别方法及装置可以适用于信息技术领域,但不仅限于此。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算 机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。 其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体(Random Access Memory,RAM)等。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于 此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到 的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围 应该以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号