首页> 外文OA文献 >Research and design of filtrating web crawler
【2h】

Research and design of filtrating web crawler

机译:过滤式网络爬虫的研究与设计

摘要

网络爬虫是一个可以从因特网上自动提取网页的系统,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。通用搜索引擎的网络爬虫一般是从几个种子URL链接开始进行全盘爬行,而专业领域搜索引擎的网络爬虫除了通过通用网络爬虫的基本功能外,还能够对链接以及页面内容进行识别,因此称作聚焦网络爬虫。聚焦网络爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。聚焦网络爬虫已经成为搜索引擎技术领域的一个研究热点,对于专业领域的搜索产生重要的作用。本论文从聚焦的另一个角度——“过滤”上来研究网络爬虫技术,称这种类型的网络爬虫为“过滤型网络爬虫”。论文首先介绍了网络...
机译:网络爬虫是一个可以从因特网上自动提取网页的系统,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。通用搜索引擎的网络爬虫一般是从几个种子URL链接开始进行全盘爬行,而专业领域搜索引擎的网络爬虫除了通过通用网络爬虫的基本功能外,还能够对链接以及页面内容进行识别,因此称作聚焦网络爬虫。聚焦网络爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。聚焦网络爬虫已经成为搜索引擎技术领域的一个研究热点,对于专业领域的搜索产生重要的作用。本论文从聚焦的另一个角度——“过滤”上来研究网络爬虫技术,称这种类型的网络爬虫为“过滤型网络爬虫”。论文首先介绍了网络...

著录项

  • 作者

    陈奋;

  • 作者单位
  • 年度 2007
  • 总页数
  • 原文格式 PDF
  • 正文语种 zh_CN
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号