首页> 中国专利> 无效模板生成方法及装置、无效网页识别方法及装置

无效模板生成方法及装置、无效网页识别方法及装置

摘要

本发明涉及信息处理技术,公开了一种无效模板生成方法及装置,所述方法包括:获取种子无效模板集合,所述种子无效模板集合中包含一个或多个种子无效网页模板;根据所述种子无效网页模板及本地网页数据库中的网页,生成候选无效模板集合;从所述候选无效模板集合筛选得到最终无效模板集合。本发明还公开了一种无效网页识别方法及装置。利用本发明,可以快速、准确地自动识别无效网页。

著录项

  • 公开/公告号CN101908047A

    专利类型发明专利

  • 公开/公告日2010-12-08

    原文格式PDF

  • 申请/专利权人 北京搜狗科技发展有限公司;

    申请/专利号CN200910086854.5

  • 发明设计人 张超旭;佟子健;

    申请日2009-06-08

  • 分类号G06F17/30;

  • 代理机构北京集佳知识产权代理有限公司;

  • 代理人赵景平

  • 地址 100084 北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间

  • 入库时间 2023-12-18 01:18:04

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2012-05-30

    授权

    授权

  • 2011-04-20

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20090608

    实质审查的生效

  • 2010-12-08

    公开

    公开

说明书

技术领域

本发明涉及信息处理技术,具体涉及一种无效模板生成方法及装置、无效网页识别方法及装置。

背景技术

互联网上存在这样一些页面,即这些页面是对用户的错误操作或者由于网站数据未能准备好而对用户进行的提示信息,比如http://artgle.cn/sceneshow/l18468/l10,此类页面对搜素引擎的用户来说不具有检索价值。通常这些页面会保存在本地数据库中,不仅占用了大量存储空间,而且在用户进行某些操作时,由于这些页面的存在会耗费大量的系统资源,比如在数据积累阶段(Spider抓取网页)。由此可见,如果可以快速准确地发现此类网页,对提升数据积累的效率,增强用户搜索效果是很有帮助的。

为此,现有技术中通常采用以下两类方法发现无效页面:

第一类是不做内容分析的方法,例如:

1.通过页面大小来识别无效页面,比如,将页面长度小于1k的页面作为无效页面。

2.通过url(Uniform Resource Locator,统一资源定位符)的模式来识别无效页面,比如,如果url后的参数带有Error等字符串,则判断为无效页面。

这类不做内容分析的方法,处理速度快,但准确率和召回率都很难提升。

第二类是通过内容分析,选取其中某些特征进行统计分析,确定无效页面,通常包括以下过程:

1.随机选取一定数量的网页样本(比如10000篇)进行人工标注,即对有效页面和无效页面进行分类;

2.利用此分类后结果选取网页特征(比如页面长度,主要内容文字等)训练分类器;

3.利用训练好的分类器对新网页样本进行判决。

这种方法可以详细地分析网页内容,在一定程度上保证了准确率,缺点在于需要人工标注语料库,耗时较长,而实际情况的无效页面分布不均匀,特征很难量化,实施困难。

发明内容

本发明实施例一方面提供一种无效模板生成方法及装置,为基于内容的无效网页分析提供依据。

本发明实施例另一方面提供一种无效网页识别方法及装置,以快速、准确地自动识别无效网页。

为此,本发明实施例提供如下技术方案:

一种无效模板生成方法,包括:

获取种子无效模板集合,所述种子无效模板集合中包含一个或多个种子无效网页模板;

根据所述种子无效网页模板及本地网页数据库中的网页,生成候选无效模板集合;

从所述候选无效模板集合筛选得到最终无效模板集合。

一种无效网页识别的方法,包括:

获取当前网页;

如果所述当前网页中包含所述最终无效模板集合中的任意一个无效网页模板,并且所述当前网页的大小小于所述无效网页模板对应的阈值,则确定所述当前网页为无效网页。

一种无效模板生成装置,包括:

获取单元,用于获取种子无效模板集合,所述种子无效模板集合中包含一个或多个种子无效网页模板;

候选无效模板生成单元,用于根据所述种子无效网页模板及本地网页数据库中的网页,生成候选无效模板集合;

筛选单元,用于从所述候选无效模板集合筛选得到最终无效模板集合。

一种无效网页识别装置,包括:

网页获取单元,用于获取当前网页;

第一检测单元,用于检测所述当前网页中是否包含最终无效模板集合中的任意一个无效网页模板;

第二检测单元,用于检测所述当前网页的大小是否小于所述无效网页模板的对应的阈值;

确定单元,用于在所述第一检测单元检测到所述当前网页中包含所述最终无效模板集合中的任意一个无效网页模板,并且所述第二检测单元检测到所述当前网页的大小小于所述无效网页模板对应的阈值时,确定所述当前网页为无效网页。

本发明实施例无效模板生成方法及装置,通过获取种子无效模板集合,根据所述种子无效模板集合中的各种子无效网页模板及本地网页数据库中的网页,生成候选无效模板集合,从所述候选无效模板集合中筛选得到最终无效模板集合,从而为基于内容的无效网页分析提供了依据。

本发明实施例无效网页识别方法及装置,利用所述最终无效模板集合识别当前网页是否为无效网页,具体地,如果所述当前网页中包含所述最终无效模板集合中的任意一个无效网页模板,并且所述当前网页的大小小于所述无效网页模板对应的阈值,则确定所述当前网页为无效网页。可见,本发明实施例利用网页的内容信息,可以在保证网页处理速度的情况下,有效提高识别无效网页的准确率。

附图说明

图1是本发明实施例无效模板生成方法的流程图;

图2是本发明实施例无效网页识别方法的流程图;

图3是本发明实施例无效模板生成装置的一种结构示意图;

图4是本发明实施例无效模板生成装置的另一种结构示意图;

图5是本发明实施例无效网页识别装置的一种结构示意图;

图6是本发明实施例无效网页识别装置的另一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。

在介绍本发明具体实施例之前,首先对本发明实施例中使用的几个名称进行简单说明:

无效网页,指在搜索引擎中没有搜索价值的网页,比如用户错误操作提示、网关关闭通知等;

无效网页模板,指在无效网页的集合中,多个无效网页拥有的共同特征,即同样的句子;

本地网页数据库,指已收录的互联网上的网页的集合(不带html标签的网页)。

本发明实施例无效模板生成方法及无效网页识别方法,充分考虑了所有可能的无效网页的内容信息,由选取的一个或多个种子无效网页模板组成种子无效模板集合,根据所述种子无效网页模板及本地网页数据库中的网页,生成候选无效模板集合,并从所述候选无效模板集合筛选得到最终无效模板集合,利用所述最终无效模板集合识别当前网页是否为无效网页。具体地,如果所述当前网页中包含所述最终无效模板集合中的任意一个无效网页模板,并且所述当前网页的大小小于所述无效网页模板对应的阈值,则确定所述当前网页为无效网页。

为了进一步提高无效模板的准确率,还可以将所述最终无效模板集合中的无效网页模板添加到所述种子无效模板集合中,进行迭代处理过程;当迭代处理后得到的最终无效模板集合中的无效网页模板的数量小于第二阈值时,停止所述迭代处理过程。

如图1所示,是本发明实施例无效模板生成方法的流程图,包括以下步骤:

步骤101,获取种子无效模板集合,所述种子无效模板集合中包含一个或多个种子无效网页模板。

可以选取一定数量的无效网页模板种子,由这些种子组成种子无效模板集合。为了描述方便,将所述种子无效模板集合记为ISeed={Ii},其中,Ii为具体的某一条无效网页模板。

具体地,在选取无效网页模板种子时,可以有多种方式,比如将包含以下内容信息的网页作为无效网页模板种子:

1.您访问的网页不存在或已被删除;或者

2.找不到该信息,该信息已能已被删除;或者

3.您要访问的网页存在问题,因此无法显示等。

步骤102,根据所述种子无效模板及本地网页数据库中选择网页,生成候选无效模板集合。

所述本地网页数据库是指已收录的互联网上的网页的全集,各网页不带btml标签。

由于不同的网页在描述同一个错误的时候使用的句式或者词语结构往往是类似的,但是并不完全相同。为此,可以通过计算句子相似度来寻找出所有可能的无效网页模板,由这些无效网页模板组成候选无效模板集合。

在计算句子相似度时,可以按以下过程进行:

1.读取本地网页数据库,并读取Iseed集合;

2.遍历本地网页数据库中每个网页,对每个网页进行如下操作:

(1)对每个网页进行分句,比如按特殊符号(换行符和/或标点符号)进行分句,得到分句后的网页,记为Si。

(2)对于每个种子无效模板Ii,计算其与Si的相似度,即计算无效模板Ii中的句子与分句后的网页Si中的句子的相似度,具体计算过程将在后面详细说明。

(3)如果计算得到的相似度大于设定的第一阈值,则将该Si作为候选的无效网页模板,记为I`i。

3.遍历本地网页数据库中的每个网页结束后,即可将得到的所有候选的无效网页模板组成候选无效模板集合。

假设两个句子分别为S1和S2,下面将详细说明计算这两个句子相似度Sim(S1,S2)的过程。

a.首先计算两个句子S1与S2的距离Dist(S1,S2),该距离表示将S1,S2分词为最小单位(去掉标点符号和助词)后,S1或S2经过最少几次增加、或删除、或修改操作,使得S1=S2。

例如:

S1=您访问的网页不存在;

S2=您正在访问的页面不存在;

分词后结果为:

S1=您/访问/的/网页/不存在;其中,“的”为助词,其影响不计入计算句子距离当中;

S2=您/正在/访问/的/页面/不存在;其中,“的”为助词,其影响不计入计算句子距离当中。

如下表1所示的词表,为了描述方便,将该词表命名为D。第一行为S1分词后的结果,第一列为S2分词后的结果。

表1:

  :0  您:1  访问:2  网页:3  不存在:4  您:1  sucess  正在:2  Add(正在)  访问:3  sucess  页面:4  Change(页面)

  不存在:5  sucess

Dist(S1,S2)的初始值为0。

D[1,1]=success,表示S1的第一个分词单位与S2第一个分词单位一致,即是相匹配的;

D[2,2]=Add(正在),表示S1的第二个分词单位与S2第二个分词单位不同,需要添加一个“正在”,才能与S2第二个分词单位相匹配。此时记录Dist(S1,S2)=1,表示使用了一次增加操作,距离加1;

D[2,3]=success,表示S1中的第二个结点“访问”与S2中的第三个结点“访问”相匹配;

D[3,4]=Change(页面),表示S1第三个结点需要修改成“页面”,才能与S2的第4个结点相匹配。此时记录Dist(S1,S2)=2,表示使用一次修改操作,距离加1。

D[4,5]=success,表示S1中第四个结点“不存在”与S2中第五个结点“不存在”相匹配。

此时计算结束,在该过程中,S1需要使用两次增加、删除或者修改操作,使得S1=S2,因此得到Dist(S1,S2)=2。

b.得到S1与S2的距离后,可以按照预定的公式计算得到其相似度。

可以根据S1与S2的距离,大致得到S1与S2的相似度,即S1与S2的距离值越小,说明S1与S2的相似度越高;反之,S1与S2的距离值越大,说明S1与S2的相似度越低。

如果为了得到更精确的相似度,可以按照一定的算法来计算Sim(S1,S2)的值,比如按以下公式计算:

Sim(S1,S2)=1-Dist(S1,S2)/S1和S2中长度最大值

当然,本发明实施例并不仅限于上述公式来计算S1与S2的相似度,还可以采用其他算法,在此不再一一列举。

需要说明的是,在所述候选无效模板集合中,还可以加入在步骤101中获得的种子无效模板集合中包含的种子无效网页模板。

步骤103,从所述候选无效模板集合中筛选得到最终无效模板集合。

具体地,可以根据所述候选无效模板集合中各无效网页模板统计本地网页数据库中无效网页的长度和/或频率,根据统计结果筛选得到最终无效模板集合。

为了进一步提高无效模板的准确率,还可对所述候选无效模板集合中各无效网页模板做进一步地筛选。具体地,可以根据该集合中各无效网页模板统计本地网页数据库中无效网页的长度和/或频率,根据统计结果筛选得到最终无效模板集合。通常,一个或多个网站的同一个无效网页会批量出现。

比如,http://artgle.cn/sceneshow/l18468/l10是一个无效网页;

而http://artgle.cn/sceneshow/l18468/l11;http://artgle.cn/sceneshow/l18468/l12等可能都是和此网页一样的无效网页,但是本地网页数据库中却保存了很多类似这样的网页,所以可以将统计所述候选无效模板集合中各无效网页模板出现在网页的频率作为判断是否为无效网页的一个重要依据。

具体地,可以将所述无效网页模板的频率定义为本地网页数据库中包含所述无效网页模板的数量,为了描述方便,将所述频率记为DF。如果DF大于设定的某一阈值,则可以将相应的候选无效网页模板作为最终的候选网页模板,将其记录到最终无效模板集合中。

另外,为了防止误判情况的发生,还可进一步参考网页的长度来确定。通常,包含一条无效网页模板的网页会有很多,这其中包括有效网页和无效网页。由于无效页面的长度分布都很集中,比如包含一条无效网页模板“如果您的浏览器不支持javascript...”的无效网页长度大都集中在1~3k或9~13k,而包含这条无效网页模板的有效网页的分布则很稀疏,比如15k以上的就很少,因此,可以根据这种特性,筛选出网页长度分布较多的那个范围的无效网页,作为最终无效网页。

比如,一个讨论网页上出现“您访问的页面不存在”这个问题的解决办法的页面,会命中所述候选无效模板集合中的某个无效网页模板,此时,通过限定无效网页模板的长度即可避免这种误判的情况发生。具体地,可以统计包含此条无效网页模板的网页的长度分布,分布越密集的区域越有可能是真正的无效网页的长度,分布稀疏的区域可能是有价值的网页。

具体地,可以计算包含某个候选无效网页模板的网页的长度分布最密集的部分的网页长度,为了描述方便,将其记为lengthBound。如果某个候选无效网页模板的网页的长度小于lengthBound,则可以将相应的候选无效网页模板作为最终的候选网页模板,将其记录到最终无效模板集合中。

当然,考虑到不同的应用环境及实现复杂度,也可以只根据所述长度和频率中的任一个特征来进行筛选,得到最终无效模板集合。

为了描述方便,下面将所述最终无效模板集合记为Ifinal。需要说明的是,在Ifinal中,对其中的每个无效网页模板还可以设定一个对应的阈值。具体地,该阈值可以是无效网页模板的大小,也可以是大于无效网页模板的大小的一个值。

在本发明实施例中,为了进一步提高得到的最终无效模板集合的准确率,还可以将所述最终无效模板集合中的无效网页模板添加到所述种子无效模板集合中,进行迭代处理,当迭代处理后得到的最终无效模板集合中的无效网页模板的数量小于一定值(第二阈值)时,停止所述迭代处理过程。

可见,本发明实施例无效模板生成方法,充分考虑网页的内容信息,由选取的一个或多个种子无效网页模板组成种子无效模板集合,根据所述种子无效网页模板及本地网页数据库中的网页,生成候选无效模板集合,从所述候选无效模板集合中筛选得到最终无效模板集合,从而为基于内容的无效网页分析提供了准确的依据。

基于上面实施例中得到的最终无效模板集合,本发明实施例还提供了一种无效网页识别方法,如图2所示,是该无效网页识别方法的流程图,包括以下步骤:

步骤201,获取当前网页;

步骤202,如果所述当前网页中包含所述最终无效模板集合中的任意一个无效网页模板,并且所述当前网页的大小小于所述无效网页模板对应的阈值,则确定所述当前网页为无效网页。

例如,在利用Spider抓取网页时,遍历正在被抓取的当前网页,如果命中最终无效模板集合Ifinal中的某条无效网页模板,即当前抓取的网页中包含Ifinal中的某条无效网页模板,则认为这是一个无效网页。否则,认为这是一个有效网页。

进一步地,在命中Ifinal中的某条无效网页模板后,还要判断Spider抓取的网页的大小是否小于该无效网页模板对应的阈值,如果是,则认为这是一个无效网页。否则,认为这是一个有效网页。

为了进一步提高本地网页数据库中存储的网页的有效性,在本发明实施例中,还可以利用Ifinal对本地网页数据库进行清理,即按照上述过程遍历本地网页数据库中的网页,如果所述本地网页数据库中包含无效网页,则删除其中的无效网页。

利用所述最终无效模板集合识别当前网页是否为无效网页,从而可以快速、准确地自动识别无效网页,进而可以提高检索的召回率。所谓召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索的查全率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如:ROM/RAM、磁碟、光盘等。

本发明实施例还提供了一种无效模板生成装置,如图3所示,是该装置的结构示意图。

在该实施例中,所述无效模板生成装置包括:获取单元301、候选无效模板生成单元302、筛选单元303。其中:

获取单元301,用于获取种子无效模板集合,所述种子无效模板集合中包含一个或多个种子无效网页模板;

候选无效模板生成单元302,用于根据所述种子无效网页模板及本地网页数据库中的网页,生成候选无效模板集合;

筛选单元303,用于从所述候选无效模板集合中筛选得到最终无效模板集合。

在本发明实施例中,所述候选无效模板生成单元302的一种优选结构包括:分句子单元321、计算子单元322、判断子单元323和存储子单元324。其中:

分句子单元321,用于读取本地网页数据库中的网页,并对所述网页进行分句;

计算子单元322,用于分别计算所述种子无效模板集合中的各种子无效模板与分句后的网页的句子相似度;

判断子单元323,用于在所述计算子单元得到的句子相似度大于第一阈值时,将对应的分句后的网页作为候选无效网页模板;

存储子单元324,用于存储由所述候选无效网页模板组成的候选无效模板集合。

当然,本发明实施例中,所述候选无效模板生成单元302并不仅限于上述这种结构,根据应用需要,还可以有基于本发明思想实现的其他结构变形。

在本发明实施例中,所述筛选单元303的一种优选结构包括:统计子单元331和筛选子单元332。其中:

统计子单元331,用于根据所述候选无效模板集合中各无效网页模板统计本地网页数据库中无效网页的长度和/或频率;所述无效网页模板的频率为本地网页数据库中包含所述无效网页模板的数量。

筛选子单元332,用于根据统计结果筛选得到最终无效模板集合。

当然,本发明实施例中,所述筛选单元303并不仅限于上述这种结构,根据应用需要,还可以有基于本发明思想实现的其他结构变形。

可见,本发明实施例无效模板生成装置,充分考虑了网页的内容信息,由选取的一个或多个种子无效模板组成种子无效模板集合,根据所述种子无效模板从本地网页数据库中选择网页,生成候选无效模板集合,从所述候选无效模板集合中筛选得到最终无效模板集合,从而为基于内容的无效网页分析提供了准确的依据。

在本发明实施例中,为了进一步提高得到的最终无效模板集合的准确率,还可以将所述最终无效模板集合中的无效网页模板添加到所述种子无效模板集合中,进行迭代处理,当迭代处理后得到的最终无效模板集合中的无效网页模板的数量小于一定值(第二阈值)时,停止所述迭代处理过程。

参照图4,是本发明实施例无效模板生成装置的另一种结构示意图。

在该实施例中,不仅包括与图3所示实施例对应的获取单元401、候选无效模板生成单元402、筛选单元403,还包括:迭代处理单元404和迭代判断单元405。其中:

迭代处理单元404,用于将所述最终无效模板集合中的无效网页模板添加到所述种子无效模板集合中,进行迭代处理过程;

迭代判断单元405,用于判断迭代处理后得到的最终无效模板集合中的无效网页模板的数量是否小于第二阈值,如果是,则通知所述迭代处理单元404停止所述迭代处理过程。

当然,在本发明实施例中,所述迭代判断单元405可以在所述筛选单元403第一次得到最终无效模板集合,即进行是否需要迭代处理的判断,也可以在经过一次迭代处理后再进行判断,具体可根据应用需要来确定。

需要说明的是,本发明实施例无效模板生成装置并不仅限于这种结构,根据应用需要,还可以有基于本发明思想实现的其他结构变形。

基于上述实施例中无效模板生成装置生成的最终无效模板集合,本发明实施例还提供了一种无效网页识别装置。

如图5所述,是该无效网页识别装置的一种结构示意图。在该实施例中,所述无效网页识别装置包括:依次相连的网页获取单元500、第一检测单元501、第二检测单元502和确定单元503。其中:

网页获取单元500,用于获取当前网页;

第一检测子单元501,用于检测所述当前网页中是否包含最终无效模板集合中的任意一个无效网页模板;

第二检测单元502,用于在第一检测单元501检测到所述当前网页中包含所述最终无效模板集合中的任意一个无效网页模板后,检测所述当前网页的大小是否小于所述无效网页模板的对应的阈值;

确定单元503,用于在第二检测单元502检测到所述当前网页的大小小于所述无效网页模板对应的阈值后,确定所述当前网页为无效网页。

如图6所示,是本发明实施例无效网页识别装置的另一种结构示意图。

在该实施例中,所述无效网页识别装置包括:网页获取单元600、分别与网页获取单元600相连的第一检测单元601和第二检测单元602、分别与所述第一检测单元601和第二检测单元602相连的确定单元603。其中:

网页获取单元600,用于获取当前网页;

第一检测单元601,用于检测所述当前网页中是否包含最终无效模板集合中的任意一个无效网页模板;

第二检测单元602,用于检测所述当前网页的大小是否小于所述无效网页模板的对应的阈值;

确定单元603,用于根据第一检测单元601和第二检测单元602的检测结果确定所述当前网页为无效网页。具体地,在所述第一检测单元601检测到所述当前网页中包含所述最终无效模板集合中的任意一个无效网页模板,并且所述第二检测单元602检测到所述当前网页的大小小于所述无效网页模板对应的阈值时,确定所述当前网页为无效网页。

当然,本发明实施例无效网页识别装置并不仅限于上述这两种结构,根据应用需要,还可以有基于本发明思想实现的其他结构变形。比如,所述确定单元可以只根据所述第一检测单元或所述第二检测单元的检测结果来确定所述当前网页是否为无效网页。

本发明实施例无效网页识别装置,利用所述最终无效模板集合识别当前网页是否为无效网页,从而可以快速、准确地自动识别无效网页,进而可以提高检索的召回率。所谓召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索的查全率。

为了进一步提高本地网页数据库中存储的网页的有效性,在本发明实施例的无效网页识别装置中,还可以进一步包括清理单元(未图示),用于删除所述本地网页数据库中的无效网页,即利用最终无效模板集合Ifinal对本地网页数据库进行清理,删除其中的无效网页。

以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及设备;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号