首页> 中文学位 >利用Nutch研究与实现支持Ajax动态网页的网络爬虫系统
【6h】

利用Nutch研究与实现支持Ajax动态网页的网络爬虫系统

代理获取

目录

声明

摘要

第一章 绪论

1.1 课题研究背景和意义

1.2 国内外研究现状

1.3 本文的主要工作及组织结构

第二章 系统相关技术介绍

2.1 网络爬虫介绍

2.1.1 网络爬虫分类

2.1.2 网络爬虫爬行策略

2.2 Ajax介绍

2.2.1 Ajax技术介绍

2.2.2 网页中嵌入JavaScript的方式

2.2.3 JavaScript跳转方式介绍

2.2.4 JQuery实现Ajax请求介绍

2.3 网络信息采集策略

2.3.1 协议驱动采集

2.3.2 事件驱动采集

2.4 相关技术介绍

2.4.1 正则表达式

2.4.2 Nutch简介

2.4.3 Nutch基本原理分析

2.4.4 Nutch工作流程分析

2.4.5 Hadoop介绍

2.4.6 Quartz介绍

2.4.7 HttpClient介绍

2.5 本章小结

第三章 系统设计思路

3.1 系统整体需求

3.2 Nutch改进设计思路

3.3 JavaScript处理器的构建思路

3.4 定时调度设计

3.5 本章小结

第四章 系统实现

4.1 系统开发环境介绍

4.2 Nutch的安装和配置

4.3 JavaScript处理器的实现

4.3.1 JavaScript处理器获取页面脚本

4.3.2 使用正则表达式匹配脚本

4.3.3 判断URL是否属于Ajax请求的URL

4.4 定时调度的实现

4.5 系统实现效果图

4.6 本章小结

第五章 系统测试

5.1 系统测试环境搭建

5.2 系统功能测试

5.3 本章小结

第六章 总结与展望

参考文献

攻读学位期间发表的学术论文

参与的科研项目

致谢

展开▼

摘要

随着Web2.0的快速发展,网站对于Ajax技术的应用越来越多。Ajax技术通过异步调用,进行页面局部刷新,在很大程度上提高了用户的体验度、减少了网络传输流量以及提高了网站的访问速度等。在Ajax技术使得互联网的交互模式发生变革的同时,也给用户和开发人员带来了一系列的问题。例如JavaScript代码的使用和编写不规范、浏览器的不兼容性、页面请求次数过多、Ajax技术的滥用造成的服务器负担过重等许多问题。
  爬虫系统属于搜索引擎中的一个必备的数据采集子系统,搜索引擎根据爬虫系统采集的数据建立索引后,对用户提供搜索服务。Ajax技术的大量使用对于搜索引擎也有着重要的影响。传统的搜索引擎只提供了对静态页面的数据的搜索服务,对由Ajax技术产生的动态数据却不能提供搜索服务。Ajax技术的大量使用造成了由Ajax技术生成的页面动态数据的日益庞大。这部分动态数据在数据分析、数据挖掘等方面都具有重要的意义。例如新浪新闻上面的部分评论是通过Ajax技术动态生成的,这部分数据的采集对于国家安全方面是有着重要意义的。
  本论文通过对Nutch进行改进,增加部分模块,建立了一个能够爬取Ajax动态数据的网络爬虫系统,并且根据数据建立了索引,对用户提供了搜索服务。

著录项

  • 作者

    李松;

  • 作者单位

    内蒙古师范大学;

  • 授予单位 内蒙古师范大学;
  • 学科 计算机科学与技术;计算机应用技术
  • 授予学位 硕士
  • 导师姓名 苏贵斌;
  • 年度 2013
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.09;
  • 关键词

    Ajax技术; 搜索引擎; 网络爬虫系统; 动态网页;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号