搜索引擎系统中网页消重的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着计算机硬件软件和互联网技术的飞速发展，网络上的各种信息急剧增长，已经成为人类有史以来信息资源数量最多、信息资源种类最全、信息资源规模最大的一个综合信息资源库。然而，用户在互联网上查找需要信息的时候，只知道搜索的关键词，并不知道具体的URL，因此就需要借助搜索引擎帮助用户查找需要的信息。
　　搜索引擎可以方便用户从互联网上查找信息，节约用户时间，受到大家普遍欢迎。互联网上出现很多功能强大的搜索引擎，针对汉语的Baidu和针对多种语言的Google等。然而，有些网站因为商业利益，为了提高其网站的点击率，大量转载别的文章。好的文章也会在博客和论坛之间转载。而且出现热门事件和大众感兴趣的焦点话题后，会有很多网站竟相报道和转载，使得用户从搜索引擎返回的结果会有很多链接不同但内容相同，降低了用户体验。用户不得不在大批相同的结果集中寻找自己需要的信息，而且重复网页的存在也增加了索引数据库的存储容量。
　　去除重复的网页是提高搜索引擎实用性和效率的一个途径。本文首先在基于HTML标签的最大正文块算法基础上实现了网页主题内容的提取，并在此基础上，提出了基于关键词和特征码的页面去重算法，并开发了实验系统，对该算法进行了验证，通过对实验结果的分析讨论证明了算法的有效性。
　　本文的主要工作有以下几点：
　　 1.理论研究：分析了搜索引擎运行原理与关键技术，从文本的相似检测到网页相似检测领域中几个经典的去重算法。
　　 2.网页去重与文本去重并不完全相同，需要先提取出去除导航、广告、版权等网页噪声的网页主题内容，在基于HTML标签的最大正文块算法基础上，综合考虑各种类型的网页，设计算法实现了网页主题内容提取。
　　 3.算法改进：在提取出的网页主题内容基础上，综合考虑了三种经典的网页去重算法：基于特征码，特征句和KCC算法，借鉴其优势，提出了基于关键词和特征码的网页去重算法。该算法简单高效，可以有效识别转载过程中有微小改动的网页，提高了网页去重的准确性。
　　 4.设计实现：在开源框架lucene基础上实现了一个简单的单机版搜索引擎系统，将基于关键词和特征码算法内嵌到去重模块。该系统可以根据需要抓取网页、对网页进行去重处理、对去重后的网页建立索引并进行搜索，根据用户查询关键词返回相关结果。
　　 5.实验分析：将本文去重算法内嵌到搜索引擎系统中，对抓取的900个含重复网页的数据集进行去重处理，并分析实验结果，证明改进算法的有效性。

著录项

作者
牛娟娟;
展开▼
作者单位

河南大学;

展开▼
授予单位河南大学;
学科计算机应用技术
授予学位硕士
导师姓名徐彬;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类国际互联网;
关键词
搜索引擎系统; 网页消重; 信息资源库; 特征码; 网页主题内容提取;

相似文献

中文文献
外文文献
专利

1. 改进的数据消重方法在垂直搜索引擎中的应用 [J] . 朱鸿鹏 . 邵阳学院学报（自然科学版） . 2012,第002期
2. 基于网页内容的网页消重高效检测算法研究 [J] . 王祖析 . 佳木斯大学学报（自然科学版） . 2010,第001期
3. 布隆过滤器在网页消重中的应用 [J] . 潘昊 ,鄂海红 ,宋美娜 . 软件 . 2015,第012期
4. 基于专业搜索引擎的网页去重技术研究 [J] . 张艳 . 软件导刊 . 2012,第004期
5. 基于专业搜索引擎的网页去重技术研究 [J] . 张艳 . 软件导刊 . 2012,第004期
6. 搜索引擎中基于分类的网页更新方法研究 [C] . 文坤梅 ,卢正鼎 . 中国计算机学会第一届全国Web信息系统及其应用学术会议 . 2004
7. 搜索引擎系统网页消重的研究与实现 [A] . 范小源 . 2007

搜索引擎系统中网页消重的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅