复合规则驱动聚焦爬虫系统的设计与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

聚焦爬虫，又称主题爬虫，这种爬虫的爬行方向往往带有很强的目的性。它会按照一定的顺序采集网页信息，力求采集到的信息都是与主题相关的信息，并且对相关度大的网页优先采集，相关度小的网页不采集。
　　本项目实现了一个聚焦爬虫系统，这个系统可以对特定范围内的网站进行实时检测。系统采用复合规则来指导爬虫的运行方向。同时对抓取下来的内容可以通过网站的形式展现给用户查看，用户可以对网页内容标记和对系统运行参数配置。
　　系统整体上分为两个模块，网页内容获取模块和显示查询模块。网页内容获取模块的功能是从网络上获取用户需要的网页信息并且对其进行分析和记录。其中主要包括提取正文、网页去重、链接分析、内容分析、存储入库和抓取调度等主要操作。系统通过这些模块间的协调工作，从互联网上抓取网页信息并进行分析、处理，实现对主题内容网页的聚焦抓取。显示查询模块主要负责将获取到的页面内容展示出来给用户查看。显示查询模块使用网站的形式实现，采用SSH框架，将数据通过图表等方式展现在页面当中。
　　整个项目现已全部完成。项目实现了用户的需求，并且已经稳定在线运行了6个月的时间，抓取到的不同的网页数量为30万个，监测的域名为5000条。

著录项

作者
刘强;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科软件工程
授予学位硕士
导师姓名郭茂祖,罗浩;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.52;
关键词
聚焦爬虫; 软件开发; 功能模块; 复合规则;

相似文献

中文文献
外文文献
专利

1. 网页主题相关性判别的聚焦爬虫系统的设计与实现 [J] . 刘娟 ,赵晓楠 . 计算机与现代化 . 2012,第010期
2. 大型复合驱动耙吸挖泥船集成监控系统设计与实现 [J] . 罗刚 ,李鹏超 ,于涛 . 中国港湾建设 . 2013,第005期
3. 基于规则驱动的城市更新基础数据库质量检查软件的设计与实现 [J] . 蚁群川 ,王剑辉 ,林海文 . 矿山测量 . 2020,第001期
4. 基于规则驱动的农村地籍调查质量检查软件的设计与实现 [J] . 王剑辉 ,梁龙帅 ,林建美 . 测绘技术装备 . 2017,第003期
5. 基于规则的分布式电驱动车辆驱动系统失效控制 [J] . 褚文博 ,罗禹贡 ,韩云武 . 机械工程学报 . 2012,第10期
6. 基于协议驱动与事件驱动的综合聚焦爬虫研究 [C] . 袁小节 ,周斌 . 2009年中国信息技术应用学术研讨会 . 2009
7. 基于规则驱动的校园网计费系统的设计与实现 [A] . 周霞 . 2014

复合规则驱动聚焦爬虫系统的设计与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅