首页> 中文学位 >基于页面分析的网络爬虫系统的设计与实现
【6h】

基于页面分析的网络爬虫系统的设计与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪论

1.1 研究背景

1.2 课题的研究背景和意义

1.3 网络爬虫国内外发展现状

1.4 论文的研究内容

2 相关理论及关键技术

2.1 搜索引擎的基本工作原理

2.2 HTTP协议

2.3 正则表达式

2.4 本章小结

3 网页爬虫系统分析与设计

3.1 网页爬虫系统的需求分析

3.2 系统功能设计

3.3 系统主要功能模块设计

3.4 本章小节

4 网页爬虫系统实现

4.1 开发工具

4.2 网页爬虫各部分的实现

4.3 线程管理的实现

4.4 本章小节

5 网页爬虫系统测试

5.1 测试环境

5.2 测试方法

5.3 测试过程

5.4 测试结果

5.5 本章小结

6 总结与展望

6.1 全文总结

6.2 展望

致谢

参考文献

展开▼

摘要

随着时间的慢慢的往后延续,科学技术水平不断的创新,网络通讯也越来越发达,网络信息的发布和传输越来越快,人们对数据的需求量的急剧的增加,Web上的信息也同时以大指数级的增加,慢慢的网络信息的过滤的显得尤为的重要,同时也不断的推动着网络爬虫技术的快速向前改进,对于传统的网页爬虫所选择的过滤条件过与广泛,导致信息的及时性与主题的相关性的很难得到保障,所以对于如何提高网络爬虫的搜索效率以及信息的过滤就很值得研究了。
  本文研究目的在于提高搜索的效率,在最少的时间内得到用户最想要的结果,Web采集信息的主要过程包括:网页爬取,网页过滤,网页分析,网页本地化,网页爬取需要解决的问题是通过程序高效的抓取到目的网页,页面过滤对垃圾页面,页面内容进行分析过滤,页面分析对获取的页面进行拆分组合的过程,页面本地化是对页面的客户端完整显示出来。
  本文实现了一个可以自动抓取网页的Spider,详细的讲解了URL地址解析,去重,页面加载,页面过滤等关键技术,对URL地址解析,在提高程序运行的性能,表达验证,搜索策略进行探讨。网页分析方面主要探讨了通过对html标签进行解析提取这一简单可行的方法提取网页中的正文,URL链接,js,css等脚本文件,图片,多媒体文件。网页本地化如何是客户端展现的页面可原先的页面保存一致,最后通过一个实例进行实验。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号