利用Nutch研究与实现支持Ajax动态网页的网络爬虫系统

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着Web2.0的快速发展，网站对于Ajax技术的应用越来越多。Ajax技术通过异步调用，进行页面局部刷新，在很大程度上提高了用户的体验度、减少了网络传输流量以及提高了网站的访问速度等。在Ajax技术使得互联网的交互模式发生变革的同时，也给用户和开发人员带来了一系列的问题。例如JavaScript代码的使用和编写不规范、浏览器的不兼容性、页面请求次数过多、Ajax技术的滥用造成的服务器负担过重等许多问题。
　　爬虫系统属于搜索引擎中的一个必备的数据采集子系统，搜索引擎根据爬虫系统采集的数据建立索引后，对用户提供搜索服务。Ajax技术的大量使用对于搜索引擎也有着重要的影响。传统的搜索引擎只提供了对静态页面的数据的搜索服务，对由Ajax技术产生的动态数据却不能提供搜索服务。Ajax技术的大量使用造成了由Ajax技术生成的页面动态数据的日益庞大。这部分动态数据在数据分析、数据挖掘等方面都具有重要的意义。例如新浪新闻上面的部分评论是通过Ajax技术动态生成的，这部分数据的采集对于国家安全方面是有着重要意义的。
　　本论文通过对Nutch进行改进，增加部分模块，建立了一个能够爬取Ajax动态数据的网络爬虫系统，并且根据数据建立了索引，对用户提供了搜索服务。

著录项

作者
李松;
展开▼
作者单位

内蒙古师范大学;

展开▼
授予单位内蒙古师范大学;
学科计算机科学与技术;计算机应用技术
授予学位硕士
导师姓名苏贵斌;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.09;
关键词
Ajax技术; 搜索引擎; 网络爬虫系统; 动态网页;

相似文献

中文文献
外文文献
专利

1. 支持AJAX的网络爬虫设计与实现 [J] . 陆亮 ,李东 . 智能计算机与应用 . 2013,第006期
2. 支持AJAX的网络爬虫设计与实现 [J] . 陆亮 ,李东 . 智能计算机与应用 . 2013,第006期
3. 一种支持Ajax框架的网络爬虫的设计与实现 [J] . 钱程 ,阳小兰 . 计算机与数字工程 . 2012,第004期
4. 网络舆情监控系统中主题网络爬虫的研究与实现 [J] . 方星星 ,鲁磊纪 ,徐洋 . 舰船电子工程 . 2014,第009期
5. 海量音频分布式网络爬虫系统的研究与实现 [J] . 谢泽辉 ,李建忠 . 韩山师范学院学报 . 2015,第006期
6. 采集Ajax网页信息的网络爬虫研究与实现 [C] . 王佳 ,魏慧琴 . 中国计算机用户协会网络应用分会2011年第十五届网络新技术与应用年会 . 2011
7. 支持Ajax技术的主题网络爬虫系统研究与实现 [A] . 王佳 . 2011

利用Nutch研究与实现支持Ajax动态网页的网络爬虫系统

目录

摘要

著录项

相似文献

相关主题

期刊订阅