基于分布式的商品信息网络爬虫系统的设计与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

自1989年World Wide Web诞生以来，电子商务伴随着互联网的普及而获得高速发展，它不仅有力地推动经济全球化，还极大地改变了人们的生活方式。在电子商务网站发展过程中，不仅商品种类丰富化，网购形式也呈现出多样化，如B2C、C2C以及团购、尾品。在移动终端多样化的背景下，面对众多选择，如何帮助、引导用户购物，是一个值得深入研究的课题。设计实现一个分布式商品信息爬虫系统可以爬取各购物网站的商品信息，进而为以图搜商品的导购网站或比价网站提供商品数据，从而达到帮助用户购物的目的。
　　首先介绍了网络爬虫涉及的相关技术，然后在此基础上结合购物网站以及商品网页的特点，重点研究了爬行策略、网页解析和爬虫系统稳定性这三个方面。在爬行策略上，对比分析了现有爬行策略的优缺点，提出一种基于广度优先的改进爬行策略，通过对URL分类并赋予权值，将原有的URL队列替换为优先级队列，使得爬虫爬取目标更有针对性，以此提高爬行效率。对于网页解析，针对网页使用JavaScript技术导致部分商品信息无法提取，提出两种解决方案。一种是通过爬取URL对应的移动端网页获取商品信息，另一种是通过模拟浏览器访问网页，获取网页上包括JavaScript加载的数据后再做进一步解析，从而获取到完整的商品信息。针对爬虫运行在复杂的网络环境中这一情况，系统从线程检测重启、中心节点信息备份以及爬虫增量爬行这三个方面提高稳定性和容灾性。
　　通过对分布式商品信息网络爬虫系统运行测试，验证了系统的分布式架构的可行性和高效性。测试结果显示，对各购物网站目标商品的爬取正确率均在99％以上，改进的爬行策略对爬行效率的提升也得到验证。

著录项

作者
姚富贵;
展开▼
作者单位

华中科技大学;

展开▼
授予单位华中科技大学;
学科计算机技术
授予学位硕士
导师姓名凌贺飞;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类电子贸易、网上贸易;
关键词
电子商务; 商品信息; 网络爬虫系统; 分布式结构; 优化设计;

相似文献

中文文献
外文文献
专利

1. 基于JAVA的京东商品分布式爬虫系统的设计与实现 [J] . 曹根源 ,董斌智 . 电子技术与软件工程 . 2018,第016期
2. 基于Python的分布式网络爬虫系统的设计与实现 [J] . 逄菲1 . 电子技术与软件工程 . 2018,第023期
3. 基于Scrapy的分布式爬虫系统的设计与实现 [J] . 李代祎 ,谢丽艳 ,钱慎一 . 湖北民族学院学报（自然科学版） . 2017,第003期
4. 一种基于Redis的分布式爬虫系统设计与实现 [J] . 罗娇敏 ,耿茜 . 软件 . 2017,第010期
5. 基于度排序的P2P IPTV分布式爬虫系统设计与实现 [J] . 王海舟 ,陈兴蜀 ,王文贤 . 四川大学学报（工程科学版） . 2014,第003期
6. 一种基于爬虫的分布式PPLive流实时检测系统 [C] . . 第十六届全国网络与数据通信学术会议(NDCC2008) . 2008
7. 基于网络爬虫的商品信息收集系统设计与实现 [A] . 张树鑫 . 2016

基于分布式的商品信息网络爬虫系统的设计与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅