首页> 中文学位 >搜索引擎系统中网页消重的研究与实现
【6h】

搜索引擎系统中网页消重的研究与实现

代理获取

目录

文摘

英文文摘

声明

1 绪论

2 搜索引擎和网页主题内容提取

3 网页消重起源与发展

4 基于关键词和特征码的页面去重算法

5 搜索引擎系统设计与实现

6 总结与展望

参考文献

致 谢

攻读学位期间发表的学术论文目录

展开▼

摘要

随着计算机硬件软件和互联网技术的飞速发展,网络上的各种信息急剧增长,已经成为人类有史以来信息资源数量最多、信息资源种类最全、信息资源规模最大的一个综合信息资源库。然而,用户在互联网上查找需要信息的时候,只知道搜索的关键词,并不知道具体的URL,因此就需要借助搜索引擎帮助用户查找需要的信息。
   搜索引擎可以方便用户从互联网上查找信息,节约用户时间,受到大家普遍欢迎。互联网上出现很多功能强大的搜索引擎,针对汉语的Baidu和针对多种语言的Google等。然而,有些网站因为商业利益,为了提高其网站的点击率,大量转载别的文章。好的文章也会在博客和论坛之间转载。而且出现热门事件和大众感兴趣的焦点话题后,会有很多网站竟相报道和转载,使得用户从搜索引擎返回的结果会有很多链接不同但内容相同,降低了用户体验。用户不得不在大批相同的结果集中寻找自己需要的信息,而且重复网页的存在也增加了索引数据库的存储容量。
   去除重复的网页是提高搜索引擎实用性和效率的一个途径。本文首先在基于HTML标签的最大正文块算法基础上实现了网页主题内容的提取,并在此基础上,提出了基于关键词和特征码的页面去重算法,并开发了实验系统,对该算法进行了验证,通过对实验结果的分析讨论证明了算法的有效性。
   本文的主要工作有以下几点:
   1.理论研究:分析了搜索引擎运行原理与关键技术,从文本的相似检测到网页相似检测领域中几个经典的去重算法。
   2.网页去重与文本去重并不完全相同,需要先提取出去除导航、广告、版权等网页噪声的网页主题内容,在基于HTML标签的最大正文块算法基础上,综合考虑各种类型的网页,设计算法实现了网页主题内容提取。
   3.算法改进:在提取出的网页主题内容基础上,综合考虑了三种经典的网页去重算法:基于特征码,特征句和KCC算法,借鉴其优势,提出了基于关键词和特征码的网页去重算法。该算法简单高效,可以有效识别转载过程中有微小改动的网页,提高了网页去重的准确性。
   4.设计实现:在开源框架lucene基础上实现了一个简单的单机版搜索引擎系统,将基于关键词和特征码算法内嵌到去重模块。该系统可以根据需要抓取网页、对网页进行去重处理、对去重后的网页建立索引并进行搜索,根据用户查询关键词返回相关结果。
   5.实验分析:将本文去重算法内嵌到搜索引擎系统中,对抓取的900个含重复网页的数据集进行去重处理,并分析实验结果,证明改进算法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号