基于页面分析的网络爬虫系统的设计与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着时间的慢慢的往后延续,科学技术水平不断的创新,网络通讯也越来越发达,网络信息的发布和传输越来越快,人们对数据的需求量的急剧的增加,Web上的信息也同时以大指数级的增加,慢慢的网络信息的过滤的显得尤为的重要,同时也不断的推动着网络爬虫技术的快速向前改进,对于传统的网页爬虫所选择的过滤条件过与广泛,导致信息的及时性与主题的相关性的很难得到保障,所以对于如何提高网络爬虫的搜索效率以及信息的过滤就很值得研究了。
　　本文研究目的在于提高搜索的效率,在最少的时间内得到用户最想要的结果,Web采集信息的主要过程包括:网页爬取,网页过滤,网页分析,网页本地化,网页爬取需要解决的问题是通过程序高效的抓取到目的网页,页面过滤对垃圾页面,页面内容进行分析过滤,页面分析对获取的页面进行拆分组合的过程,页面本地化是对页面的客户端完整显示出来。
　　本文实现了一个可以自动抓取网页的Spider,详细的讲解了URL地址解析,去重,页面加载,页面过滤等关键技术,对URL地址解析,在提高程序运行的性能,表达验证,搜索策略进行探讨。网页分析方面主要探讨了通过对html标签进行解析提取这一简单可行的方法提取网页中的正文,URL链接,js,css等脚本文件,图片,多媒体文件。网页本地化如何是客户端展现的页面可原先的页面保存一致,最后通过一个实例进行实验。

著录项

作者
郝以珍;
展开▼
作者单位

华中科技大学;

展开▼
授予单位华中科技大学;
学科软件工程
授予学位硕士
导师姓名覃中平;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.092;
关键词
Web采集信息; 网络爬虫系统; 网页过滤; 搜索效率;

相似文献

中文文献
外文文献
专利

1. 基于Python的网络爬虫系统的设计与实现分析 [J] . 李文华 . 内江科技 . 2021,第002期
2. 基于爬虫的高校网络舆情分析系统设计与实现 [J] . 王展 ,赵征鹏 . 信息与电脑 . 2021,第003期
3. 基于Python的网络爬虫系统的设计与实现 [J] . 冯艳茹 . 电脑与信息技术 . 2021,第006期
4. 基于网络爬虫的数据可视化系统设计与实现 [J] . 乔士秀 ,圣文顺 . 电子技术与软件工程 . 2021,第012期
5. 基于Scrapy的网络爬虫系统框架设计与实现 [J] . 王磊 ,刘晓丹 . 微型电脑应用 . 2019,第004期
6. 基于网络爬虫的XSS漏洞扫描系统的设计与实现 [C] . 彭亮 ,卓新建 ,黄玮 . 第十三届中国科协年会 . 2011
7. 面向动态页面的网络爬虫系统的设计与实现 [A] . 张莹 . 2012

基于页面分析的网络爬虫系统的设计与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅