首页> 中文学位 >复合规则驱动聚焦爬虫系统的设计与实现
【6h】

复合规则驱动聚焦爬虫系统的设计与实现

代理获取

目录

封面

中文摘要

英文摘要

目录

第1章 绪 论

1.1 课题背景及研究的目的和意义

1.2 本课题相关理论的发展概况

1.3 本文的主要研究内容

第2章 聚焦爬虫系统需求分析

2.1 系统概述

2.2 系统需求

2.3 需要解决的问题

2.4 本章小结

第3章 聚焦爬虫系统设计

3.1 系统总体设计

3.2 显示查询模块设计

3.3 网页内容获取模块设计

3.4 系统详细设计

3.5 系统数据库设计

3.6 本章小结

第4章 聚焦爬虫系统实现

4.1 网页采集子模块的实现

4.2 去重检测子模块的实现

4.3复合规则聚焦策略的实现

4.4数据存储模块的实现

4.5 URL调度子模块的实现

4.6 系统的运行页面

4.7 本章小结

第5章 聚焦爬虫系统测试

5.1 显示查询模块测试

5.2 网页内容获取模块测试

5.2 系统性能测试

5.3 本章小结

结论

参考文献

声明

致谢

个人简历

展开▼

摘要

聚焦爬虫,又称主题爬虫,这种爬虫的爬行方向往往带有很强的目的性。它会按照一定的顺序采集网页信息,力求采集到的信息都是与主题相关的信息,并且对相关度大的网页优先采集,相关度小的网页不采集。
  本项目实现了一个聚焦爬虫系统,这个系统可以对特定范围内的网站进行实时检测。系统采用复合规则来指导爬虫的运行方向。同时对抓取下来的内容可以通过网站的形式展现给用户查看,用户可以对网页内容标记和对系统运行参数配置。
  系统整体上分为两个模块,网页内容获取模块和显示查询模块。网页内容获取模块的功能是从网络上获取用户需要的网页信息并且对其进行分析和记录。其中主要包括提取正文、网页去重、链接分析、内容分析、存储入库和抓取调度等主要操作。系统通过这些模块间的协调工作,从互联网上抓取网页信息并进行分析、处理,实现对主题内容网页的聚焦抓取。显示查询模块主要负责将获取到的页面内容展示出来给用户查看。显示查询模块使用网站的形式实现,采用SSH框架,将数据通过图表等方式展现在页面当中。
  整个项目现已全部完成。项目实现了用户的需求,并且已经稳定在线运行了6个月的时间,抓取到的不同的网页数量为30万个,监测的域名为5000条。

著录项

  • 作者

    刘强;

  • 作者单位

    哈尔滨工业大学;

  • 授予单位 哈尔滨工业大学;
  • 学科 软件工程
  • 授予学位 硕士
  • 导师姓名 郭茂祖,罗浩;
  • 年度 2016
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.52;
  • 关键词

    聚焦爬虫; 软件开发; 功能模块; 复合规则;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号