基于网站目录及链接关系的Spider爬行策略的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网（Internet）近几年来的飞速发展，互联网上提供的信息也呈现爆炸式的增长态势，面对Web信息以几何级数不断增长的情况，如何能够快速获取对用户更有价值的、更有质量的信息便成为了研究的热点之一。网络机器人Spider是整个搜索引擎系统的重要组成部分，它是搜索引擎的数据来源，Spider的效率决定着整个搜索引擎系统的内容质量的高低、信息能否及时的更新。本文首先从搜索引擎的发展和种类出发，研究了搜索引擎的基本组成工作原理和网络机器人的组成体系结构，重点分析了基于网页质量研究的网络机器人的爬行策略。通过对Web结构上的挖掘分析，结合对链接种类的分析，设计了一种新的针对高质量网页及潜在的高质量网页为爬行目标的网络机器人爬行策略。本文的主要研究内容主要包括以下几个方面： 1．通过对一般网络机器人的体系结构的分析，以及对Jeff Heaton Spider开源爬虫的研究，提出了本文所设计的网络爬虫的体系结构。 2．对基于网页质量优先爬行的几种网络机器人爬行策略进行了分析和比较。 3．对Web的结构形式进行了分析，结合对网页间链接的分类研究，提出针对高质量网页和潜在高质量网页为目标的网络机器人爬行策略。 4．通过对实验数据进行分析，并与Backlink算法网络机器人进行比较，证明了本文所设计的爬行方案的可行性和必要性。 5．对运行结果和下一步本课题的实现内容做了分析和简单的展望。

著录项

作者
刘亦科;
展开▼
作者单位

北京化工大学;

展开▼
授予单位北京化工大学;
学科计算机应用技术
授予学位硕士
导师姓名山岚;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类国际互联网 ;
关键词
链接分析; 网站目录; 高质量网页; 爬行策略; 搜索引擎; 内容质量; 网络机器人; 网络爬虫;

相似文献

中文文献
外文文献
专利

1. 基于动态评价URL链接结构的主题爬行策略 [J] . 郑凯 . 福建电脑 . 2010 ,第002期
2. 基于超链接和内容相关度的综合爬行策略 [J] . 蔡明 ,倪贤贵 . 微计算机信息 . 2008 ,第027期
3. 基于URL文本特征及链接关系的钓鱼网站识别算法 [J] . 赵蹲宇 ,张兆心 . 高技术通讯 . 2017 ,第008期
4. 基于链接的网站搜索引擎优化策略 [J] . 张涛 ,廖力 . 湖北工业大学学报 . 2010 ,第005期
5. 基于XML关系数据库转换策略研究与实现 [J] . 胡华 ,邵君 . 微计算机信息 . 2008 ,第015期
6. 基于网站链接关系的中国境内WEB图结构研究 [C] . 丁国栋 ,王斌 . 全国网络与信息安全技术研讨会'2004 . 2004
7. 基于移动搜索的Spider爬行策略的研究和实现 [A] . 祁鹏 . 2010

基于网站目录及链接关系的Spider爬行策略的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅