首页> 中文学位 >基于分布式的商品信息网络爬虫系统的设计与实现
【6h】

基于分布式的商品信息网络爬虫系统的设计与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 引言

1.1 研究背景及意义

1.2 国内外研究现状

1.3 主要研究内容

1.4 本文结构

2 网络爬虫概述

2.1 网络爬虫基本原理

2.2 网络爬虫分类

2.3 网络爬虫架构

2.4 本章小结

3 商品信息爬虫设计与关键技术研究

3.1 系统总体设计

3.2 爬行策略研究

3.3 网页解析研究

3.4 系统稳定性研究

3.5 本章小结

4 系统实现与评测

4.1 爬取目标的确定

4.2 URL处理

4.3 系统运行评测

4.4 本章小结

5 总结与展望

5.1 总结

5.2 进一步的工作

致谢

参考文献

附录 攻读学位期间的研究成果与参研项目

展开▼

摘要

自1989年World Wide Web诞生以来,电子商务伴随着互联网的普及而获得高速发展,它不仅有力地推动经济全球化,还极大地改变了人们的生活方式。在电子商务网站发展过程中,不仅商品种类丰富化,网购形式也呈现出多样化,如B2C、C2C以及团购、尾品。在移动终端多样化的背景下,面对众多选择,如何帮助、引导用户购物,是一个值得深入研究的课题。设计实现一个分布式商品信息爬虫系统可以爬取各购物网站的商品信息,进而为以图搜商品的导购网站或比价网站提供商品数据,从而达到帮助用户购物的目的。
  首先介绍了网络爬虫涉及的相关技术,然后在此基础上结合购物网站以及商品网页的特点,重点研究了爬行策略、网页解析和爬虫系统稳定性这三个方面。在爬行策略上,对比分析了现有爬行策略的优缺点,提出一种基于广度优先的改进爬行策略,通过对URL分类并赋予权值,将原有的URL队列替换为优先级队列,使得爬虫爬取目标更有针对性,以此提高爬行效率。对于网页解析,针对网页使用JavaScript技术导致部分商品信息无法提取,提出两种解决方案。一种是通过爬取URL对应的移动端网页获取商品信息,另一种是通过模拟浏览器访问网页,获取网页上包括JavaScript加载的数据后再做进一步解析,从而获取到完整的商品信息。针对爬虫运行在复杂的网络环境中这一情况,系统从线程检测重启、中心节点信息备份以及爬虫增量爬行这三个方面提高稳定性和容灾性。
  通过对分布式商品信息网络爬虫系统运行测试,验证了系统的分布式架构的可行性和高效性。测试结果显示,对各购物网站目标商品的爬取正确率均在99%以上,改进的爬行策略对爬行效率的提升也得到验证。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号