首页> 中文学位 >搜索引擎系统网页消重的研究与实现
【6h】

搜索引擎系统网页消重的研究与实现

代理获取

摘要

Internet的迅速普及和飞速发展,使人们面临着一个信息的海洋,快速从中获得真正重要的信息变得至关重要。搜索引擎(主要指全文搜索系统)即是提供这种功能的一种工具。然而在搜索引擎返回的检索结果中,存在大量的重复网页,它们主要来自网站之间的转载。这些内容重复的网页既占用了网络带宽,又浪费存储资源,用户不希望看到一堆内容相同或近似的检索结果,真正有用的结果往往淹没在这些重复信息之中而不易被发现。如果能够有效消除这些重复网页,不但会提高检索的准确率,节省用户的时间和精力,而且对搜索系统本身而言可以节省大量的存储资源,提高工作效率。 本文主要研究搜索引擎中的网页消重问题。目前有效的网页消重方法还比较少,主要都在服务器端实现,即在搜索系统的采集器进行网页采集的过程中消除重复的网页。目前使用的方法主要有基于相同URL的方法、基于聚类的方法、基于特征码的方法和基于签名的方法。其中聚类的方法是先将文本基于向量空问模型表示为一个向量,然后再应用各种方法来实现聚类或分类。这种方法的向量夹角计算具有很高的计算复杂度因而占用较多的处理时间。此后提出的基于特征码的方法具有较高的消重效率,但仍然难以抵抗网页转载时产生的噪声。 与以往消重工作不同的是,本文将消重工作分为服务器端和客户端两部分进行。在研究了大量重复网页的基础上,将重复网页的概念进一步细分,分成内容完全相同的网页和经过适当编辑、裁剪等工作后形成的基本相同或相似网页,并分别在搜索系统的服务器端和客户端进行这两种不同类型网页的消重工作。 在以上研究工作的基础上提出了一种基于网页内容特征串的新方法来解决服务器端的网页消重问题。该方法充分利用了网页的结构特征,采取主码和辅码相结合的方式来标识网页文本。主码用来标识网页文本的段落结构信息,辅码用来标识网页文本的内容信息。本文采用对主码进行聚类,对相应类别的辅码进行匹配的策略,提高了消重的准确率和效率。实验证明该方法具有比较理想的消重效果。 为了实现搜索系统的智能化和个性化定制功能,本文在服务器端消重的基础上,又在客户端提出了智能代理模型。在此基础上,分析了新闻类网页的重复特点,提出了适用于客户端的基于关键词上下文匹配的网页消重新算法。该算法利用新闻类网页转载率高、重复率高的特征,考虑到用户搜索关键词一般可以表征其所希望获得的网页,使用用户提交关键词的上下文来构成匹配串,对各匹配串进行比较来实现网页消重。该算法采用模糊匹配的思想来抵抗网页噪声,引入可以根据需要进行调整的模糊因子和重叠因子等参数,得到了满意的消重效果。 本文为了验证所提出算法的有效性并比较其消重效果,在WindowS平台上基于Java 语言以及Lucene工具包开发了一个搜索引擎实验原型系统,完成了该系统的总体设计和各个模块的设计工作,并在该系统上实现了本文的算法。实验结果表明,本文提出的两种消重算法均具有较高的重复网页召回率、消重准确率和较低的漏删率及误删率,进一步改进、完善后,可望获得实际应用。最后进行了全文总结并提出了进一步研究工作的设想。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号