首页> 中文学位 >基于Storm云平台的分布式网络爬虫技术研究与实现
【6h】

基于Storm云平台的分布式网络爬虫技术研究与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪 论

1.1 研究工作的背景与意义

1.2 国内外研究现状

1.3 研究内容

1.4 本论文的结构安排

第二章 相关技术介绍

2.1 网络爬虫技术原理

2.2 Storm云平台

2.3 非关系型数据库

2.4 微博数据获取技术

2.5 本章小结

第三章 分布式网络爬虫系统需求

3.1 系统实现目标

3.2 可行性分析

3.3 功能需求分析

3.4 性能需求分析

3.5 本章小结

第四章 分布式网络爬虫系统设计

4.1 数据库设计

4.2 分布式网络爬虫系统的总体架构设计

4.3 本章小结

第五章 系统测试

5.1 系统环境搭建

5.2 系统测试

5.3 本章小结

第六章 总结与展望

6.1 本文总结

6.2 存在的问题与不足

6.3 未来工作展望

致谢

参考文献

展开▼

摘要

随着互联网的高速发展,许多新型的商业模式,例如O2O等,被运用到互联网上,这导致越来越多的站点在互联网上创建,因此互联网上所包含的信息资源也就越来越多。在这浩瀚的互联网大海中,人们想快速的找到自己想要的信息,搜索引擎的搜索技术就显得愈发重要。而网络爬虫是搜索引擎中很重要的组成部分,这也就对网络爬虫提出了新的挑战。
  传统的单机网络爬虫已经不能满足日益高速增长的数据的抓取需求,这导致分布式网络爬虫技术的出现。分布式网络爬虫利用多台机器,有效的分工合作,提高了网络爬虫的速度,从而从整体上提升了网络爬虫的性能。
  本文设计并实现了一个基于Storm的、可扩展的分布式网络爬虫系统,结合当下流行的新浪微博平台,将网络爬虫的数据源放在新浪微博上。具体来说,本文完成了以下的工作内容:
  1、对本文中的分布式网络爬虫的需求进行了分析,包括对系统要实现的目标、系统的可行性、功能需求和性能需求这四个模块。其中功能需求分析中确定将本系统分成六大模块,包括模拟登录模块、URL队列库模块、URL链接优化模块、网页下载模块、网页解析模块和网页存储模块,并对每个模块的需求进行了详细的阐述。
  2、针对新浪微博,对本系统的网络爬虫进行了一个详细设计,包括数据库的设计和系统架构的设计。重点介绍了系统的整个架构设计,分别对六个模块的设计进行了详细的说明。
  3、针对本文实现的分布式网络爬虫系统进行了一个测试,从系统的功能和性能两个方面对其进行了测试,并对测试的结果进行分析。
  4、对本文的进行了一个总结,分析了本文存在的问题和不足,并提出了今后继续对本文的研究方向。

著录项

  • 作者

    付志鸿;

  • 作者单位

    电子科技大学;

  • 授予单位 电子科技大学;
  • 学科 计算机技术
  • 授予学位 硕士
  • 导师姓名 佘堃;
  • 年度 2015
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.03;
  • 关键词

    网络爬虫; 云平台; 功能需求; 网页存储;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号