基于Storm云平台的分布式网络爬虫技术研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的高速发展，许多新型的商业模式，例如O2O等，被运用到互联网上，这导致越来越多的站点在互联网上创建，因此互联网上所包含的信息资源也就越来越多。在这浩瀚的互联网大海中，人们想快速的找到自己想要的信息，搜索引擎的搜索技术就显得愈发重要。而网络爬虫是搜索引擎中很重要的组成部分，这也就对网络爬虫提出了新的挑战。
　　传统的单机网络爬虫已经不能满足日益高速增长的数据的抓取需求，这导致分布式网络爬虫技术的出现。分布式网络爬虫利用多台机器，有效的分工合作，提高了网络爬虫的速度，从而从整体上提升了网络爬虫的性能。
　　本文设计并实现了一个基于Storm的、可扩展的分布式网络爬虫系统，结合当下流行的新浪微博平台，将网络爬虫的数据源放在新浪微博上。具体来说，本文完成了以下的工作内容：
　　1、对本文中的分布式网络爬虫的需求进行了分析，包括对系统要实现的目标、系统的可行性、功能需求和性能需求这四个模块。其中功能需求分析中确定将本系统分成六大模块，包括模拟登录模块、URL队列库模块、URL链接优化模块、网页下载模块、网页解析模块和网页存储模块，并对每个模块的需求进行了详细的阐述。
　　2、针对新浪微博，对本系统的网络爬虫进行了一个详细设计，包括数据库的设计和系统架构的设计。重点介绍了系统的整个架构设计，分别对六个模块的设计进行了详细的说明。
　　3、针对本文实现的分布式网络爬虫系统进行了一个测试，从系统的功能和性能两个方面对其进行了测试，并对测试的结果进行分析。
　　4、对本文的进行了一个总结，分析了本文存在的问题和不足，并提出了今后继续对本文的研究方向。

著录项

作者
付志鸿;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科计算机技术
授予学位硕士
导师姓名佘堃;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.03;
关键词
网络爬虫; 云平台; 功能需求; 网页存储;

相似文献

中文文献
外文文献
专利

1. 分布式网络爬虫技术的研究与实现 [J] . 吴宇鹏 . 电脑编程技巧与维护 . 2020,第011期
2. 基于云平台的分布式PCA算法在煤炭图像处理中的研究与实现 [J] . 周蓉 . 福建电脑 . 2015,第011期
3. 基于校园分布式主题网络爬虫技术基础框架实现研究 [J] . 袁小玲 . 电子世界 . 2020,第020期
4. 基于Hadoop的分布式网络爬虫技术的设计与实现 [J] . 岳雨俭 . 电脑知识与技术 . 2015,第008期
5. 网络爬虫技术的研究与实现 [J] . 朱莉娜 ,李泽平 . 黑龙江科技信息 . 2017,第010期
6. 基于Raspberry Pi和RFC2544的分布式网络性能测试系统研究与实现 [C] . ZHAO Peng ,赵鹏 ,CHU Jian . 第九届全国信号和智能信息处理与应用学术会议 . 2015
7. 网络爬虫技术在云平台上的研究与实现 [A] . 刘小云 . 2016

基于Storm云平台的分布式网络爬虫技术研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅