首页> 中文学位 >基于网站内容框架的聚焦爬虫算法的优化和实现
【6h】

基于网站内容框架的聚焦爬虫算法的优化和实现

代理获取

摘要

伴随着互联网的急速发展,网络信息量以飞快的速度进行增长,搜索引擎成为人们生活中获取信息的不可缺少的方式之一,在现代搜索引擎中,爬虫起到了至关重要的作用,它是搜索引擎的核心,通过爬虫获取足够数量和质量的网页后,搜索引擎才可以依据索引技术为用户提供基于关键字搜索的服务。然而随着网页的爆发性增长,具有相同主题的网站日渐增多,如何快速的抓取网页,更加准确的分析网页信息并且将爬取策略有效的整合到爬虫系统中成为了现在网络爬虫的系统的一个核心问题,也是搜索引擎面临的主要问题。
  本文从互联网较为常见的网站的主题作为基础研究方向,通过站在网站运营的角度和网站设计的理念上对网页框架进行分析,总结出现今网站建设中的主题的相似性,并提取出符合当前网站性质的主题框架,根据框架的行为确定当前网页的主题方向,运用现有的研究思路对网页模型进行分析,并分析现有算法在解决网页模型中的优点和不足,以软件工程的思想为指导,在一定的理论基础上提出相关问题的解决方案的设想,随后设计并实现基于主题框架的主题爬虫并对相关算法进行优化,最后,阐述了相关的实验方法和实验标准,并用现有的理论基础证实了通过此标准得出的实验数据可靠性,通过进行实验数据的分析,比对实验前和实验后的数据证明此算法的优化的可行性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号