首页> 中国专利> 在搜索引擎中处理悬空网页节点的方法和系统

在搜索引擎中处理悬空网页节点的方法和系统

摘要

本发明公开了一种在搜索引擎中处理悬空网页节点的方法,包括步骤:从互联网上获取网页的同时获取所述网页的从属网站信息;判断所述网页是否为悬空网页,如果是则在计算所述网页的等级时执行步骤:为所述悬空网页增加到至少一个非悬空网页的虚拟出链;该非悬空网页与所述悬空网页从属于同一个网站。本发明还公开了一种在搜索引擎中处理悬空网页节点的系统。本发明通过为每个悬空网页节点增加其站内虚拟链接,有利于pagerank的计算,使悬空节点的pagerank计算合理化,提高搜索引擎搜索结果的质量。

著录项

  • 公开/公告号CN101079058A

    专利类型发明专利

  • 公开/公告日2007-11-28

    原文格式PDF

  • 申请/专利权人 腾讯科技(深圳)有限公司;

    申请/专利号CN200710073597.2

  • 发明设计人 文勖;

    申请日2007-03-21

  • 分类号G06F17/30(20060101);

  • 代理机构44217 深圳市顺天达专利商标代理有限公司;

  • 代理人郭伟刚;蔡晓红

  • 地址 518057 广东省深圳市高新科技园南区高新南一道飞亚达高科技大厦5-10层

  • 入库时间 2023-12-17 19:24:25

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2013-11-13

    专利权的转移 IPC(主分类):G06F17/30 变更前: 变更后: 登记生效日:20131022 申请日:20070321

    专利申请权、专利权的转移

  • 2009-05-20

    授权

    授权

  • 2008-01-23

    实质审查的生效

    实质审查的生效

  • 2007-11-28

    公开

    公开

说明书

技术领域

本发明涉及搜索引擎技术,特别涉及一种在搜索引擎中处理悬空网页节点的方法和系统。

背景技术

随着因特网的迅猛发展,搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务。搜索引擎为用户提供信息“检索”服务,它使用搜索程序把因特网上的所有信息归类以帮助用户在海量的互联网信息中搜寻其所需要的信息。搜索引擎的原理主要包括三步:1)从互联网上抓取网页(crawler阶段,爬取阶段),2)建立索引数据库,3)在索引数据库中搜索排序。

其中,对搜索结果的排序要用到网页等级值(pagerank),Pagerank用于指示对应网页的链接广泛度(Link Popularity),与用户的搜索要求相匹配的网页的pagerank越大,其在搜索结果页面的排序往往越靠前。PageRank依赖于唯一的网络法则,就是用大量的链接结构为依据为网页计算得分。从本质上来说,一个从A页到B页的链接a,算A投B一票。高质量的网站会得到较高PageRank。

但是,目前网络中存在大量的悬空网页节点(Dangling节点),这样的节点约占整个网页数目的6%左右,Dangling节点的存在会影响pagerank的有效计算。Dangling节点指那些只有入链、没有出链(向外链接)的网页(节点),例如一些非常有价值的doc文档、pdf文档等都是Dangling节点。Dangling节点的存在使得搜索引擎中pagerank的计算出现了偏差。如果不处理Dangling节点,一方面导致pagerank的计算不能有效地进行,另一方面,可能导致具有Dangling节点的有价值的网页的pagerank降低,影响网页搜索排名,进而影响搜索结果的质量。

目前对于dangling节点的处理方法是:在网络中增加一个虚拟节点,所有的dangling节点都有一个到该虚拟节点的虚拟出链,该虚拟节点有到每个非dangling节点的虚拟出链,这样,整个网页就不存在dangling节点。其缺陷是:①对dangling节点pagerank的分配不合理,从而影响了网页搜索排序;②增加了过多的虚拟链接,影响pagerank的计算速度。

发明内容

本发明的目的在于提供一种在搜索引擎中处理悬空网页节点的方法和系统,可以克服现有技术的缺陷。

本发明的技术方案是:在搜索引擎中处理悬空网页节点的方法,包括以下步骤:A1,从互联网上获取网页的同时获取所述网页的从属网站信息;A2,判断所述网页是否为悬空网页,如果是则在计算所述网页的等级时执行步骤B1;B1,为所述悬空网页增加到至少一个非悬空网页的虚拟出链;所述非悬空网页与所述悬空网页从属于同一个网站。

作为优选,步骤A2中,判断所述网页为悬空网页时,为所述网页做悬空网页标记。

作为优选,步骤A2中,判断所述网页为非悬空网页时,为所述网页做非悬空网页标记。

本发明还提供了一种在搜索引擎中处理悬空网页节点的系统,包括:网页抓取模块,用于从互联网上获取网页,同时获得所述网页的来源网站信息;分类模块,用于将所述网页分类为悬空网页或非悬空网页;虚拟链接建立模块,用于为所述悬空网页建立到至少一个非悬空网页的虚拟出链;且所述非悬空网页与所述悬空网页从属于一个网站。

作为优选,所述系统还包括存储模块,用于存储所述网页抓取模块获得的网页和其来源网站信息。

作为优选,所述分类模块还用于将分类为悬空网页的网页做悬空网页标记,并保存。

作为优选,所述分类模块在判断所述网页不是悬空网页时,也为所述网页做标记。

本发明的有益效果在于:(1)通过为每个悬空网页节点增加到其同属站点的虚拟出链(站内虚拟链接),使得在pagerank计算中不存在dangling节点,有利于pagerank的计算;(2)增加站内虚拟链接符合pagerank的思想,使得dangling节点的pagerank计算合理化,使网页搜索排序更加理想,提高搜索引擎搜索结果的质量。

附图说明

图1是本发明在搜索引擎中处理悬空网页节点的系统的结构图;

图2是本发明较佳实施例中在搜索引擎中处理悬空网页节点的方法的流程图;

图3是本发明另一实施例中在搜索引擎中处理悬空网页节点的方法的流程图。

具体实施方式

下面根据附图和具体实施例对本发明作进一步阐述。

如图1所示,一种在搜索引擎中处理悬空网页节点(Dangling节点)的系统10包括网页抓取模块100、分类模块101、存储模块102和虚拟链接建立模块103。

其中,网页抓取模块100负责自动从互联网获取网页和对应网页的从属网站信息,并将获取到的信息发送到分类模块101(或同时保存在存储模块102中)。一般的做法是:网页抓取模块100通过能够从互联网上自动收集网页的网络蜘蛛程序,自动访问互联网,并沿着任何网页中的所有URL(统一资源定位器)爬到其它网页,重复这过程,并把爬过的所有网页收集到存储模块102中。可通过网页的URL和内部结构信息知道该网页属于哪个站点,从而得知哪些网页属于同一个站点。一般搜索引擎中的自动信息搜集功能分两种,一种是定期搜索,即每隔一段时间(比如28天),网页抓取模块100主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,“蜘蛛”程序会自动提取网站的信息和网址加入存储模块102;另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,搜索引擎的网页抓取模块100会在一定时间内(2天到数月不等)定期对应网站派出“蜘蛛”程序,扫描网站并将有关信息存入存储模块102。

分类模块101负责将网页抓取模块100获得的网页分为Dangling网页和非Dangling网页,并分别标以不同的标记,最后将做了标记的网页及其来源网站信息保存到存储模块102中。分类模块101可通过对网页的源代码进行分析以判断对应网页是否有向外链接来进行区分。本发明的其它实施例中,可只对Dangling网页作标记,不对非Dangling网页作标记。

虚拟链接建立模块103负责在接收到计算Dangling网页pagerank的命令后,为对应Dangling网页建立到一个到非Dangling网页的虚拟出链,且该非Dangling网页与该Dangling网页从属于一个网站。虚拟链接建立模块103可通过查询存储模块102以获得上述非Dangling网页。本发明的其它实施例中,可为对应Dangling网页建立到其同属站点的两个或两个以上的非Dangling网页的虚拟出链。这样,在进行pagerank计算时就不存在Dangling网页节点了。

由于从网页A导向网页B的链接被看作是页面A对页面B的支持投票,搜索引擎根据这个投票数来判断页面的重要性。如果一个网页A是dangling节点,而网页B,C,D与网页A是同属一个站点的三个网页,那么增加网页A到网页B,网页A到网页C,网页A到网页D的三个虚拟链接并不影响pagerank的计算——因为网页A,B,C,D属于同一个站点,A给B,C,D的“投票”是理所当然的。正如为www.sky.com的某个网页A增加虚拟链接链向www.sky.com的某个网页B,是非常符合现有搜索引擎的思想的。且,增加的虚拟链接的数量非常有限,有效地利用了Web所拥有的庞大链接构造的特性。

综上所述,如图2所示,本发明一个实施例中,在搜索引擎中处理悬空网页节点的方法包括以下步骤:

步骤S1,从互联网上获取网页的同时获取对应网页的从属网站信息。

步骤S2,判断获得的网页是否为Dangling网页,对Dangling网页和非Dangling网页分别标以不同的标记,并保存。

步骤S3,在计算Dangling网页的等级(pagerank)前在存储模块中搜索,获得与该Dangling网页从属于同一个网站的至少一个非Dangling网页,并为该Dangling网页增加到上述非Dangling网页的虚拟出链。

如图3所示,本发明另一个实施例中,在搜索引擎中处理悬空网页节点的方法包括以下步骤:

步骤S21,从互联网上获取网页的同时获取对应网页的从属网站信息,并保存。

步骤S22,在计算网页的等级(pagerank)时,判断该网页是否为Dangling网页,如果是执行步骤S23,否则执行步骤S25。

步骤S23,从存储模块中搜索,获得与该Dangling网页从属于同一个网站的至少一个非Dangling网页。

步骤S24,为该Dangling网页增加到上述非Dangling网页的虚拟出链。

步骤S25,计算该网页的等级。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号