首页> 中文学位 >可爬取Ajax数据的搜索引擎爬虫研究与设计
【6h】

可爬取Ajax数据的搜索引擎爬虫研究与设计

代理获取

摘要

近年来web2.0技术得到了广泛应用,新技术在改善人们浏览网页习惯的同时也给其它相关技术带来了巨大挑战,搜索引擎就是其中之一。面对网页中蕴含的大量动态数据,传统搜索引擎已经无法实现抓取功能,Ajax应用的各种状态和事件可以被用户看到,但无法被搜索引擎抓取。
  针对搜索引擎所面临的挑战,本文给出了相应的解决方案:分析并建立Ajax应用的状态模型,在此基础之上设计并实现了Ajax爬虫的核心算法,通过建立热点缓存模型实现了算法的优化,根据Ajax动态页面的特点提出了网页权重评定算法AjaxRank,最后通过实例测试验证了Ajax搜索引擎的检索结果质量,并对搜索引擎的各项性能指标进行了综合评估。
  本文的重要意义在于,对Ajax动态数据的应用原理进行了深入细致的分析,在此基础之上,设计并实现了可抓取Ajax动态数据的搜索引擎,为动态数据抓取的进一步研究提供了一定意义的理论基础。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号