首页> 外国专利> A SYSTEM FOR CRAWLING THE WEB AND EXTRACTING DESIGNATED DATA AND THE METHOD THEREFOR I.E. WEBHARVESTER

A SYSTEM FOR CRAWLING THE WEB AND EXTRACTING DESIGNATED DATA AND THE METHOD THEREFOR I.E. WEBHARVESTER

机译:用于抓取网络并提取指定数据的系统及其方法WEBHARVESTER

摘要

The present invention discloses a system for crawling the Web and extracting designated data and the method therefor, i.e. WebHarvester, said system comprises: a computer system; a database configured in the computer system; templates residing in the computer system for mapping information in target page for each web site; fetch means for fetching web pages from said web sites and transferring the fetched pages to said computer system; filter means for scanning the fetched pages to extract necessary information from the fetched pages from said web sites according to corresponding one of said templates, respectively; format and post means for converting the extracted information into a standard format, and storing the formatted information in said database. Said computer system is a server connected to Internet.
机译:本发明公开了一种用于爬网并提取指定数据的系统及其方法,即WebHarvester,所述系统包括:计算机系统;在计算机系统中配置的数据库;驻留在计算机系统中的模板,用于在每个网站的目标页面中映射信息;获取装置,用于从所述网站获取网页并将获取的页面传输到所述计算机系统;过滤器装置,用于根据相应的所述模板之一,扫描提取的页面以从所述网站的提取的页面中提取必要的信息;格式和发布装置,用于将提取的信息转换为标准格式,并将格式化的信息存储在所述数据库中。所述计算机系统是连接到互联网的服务器。

著录项

  • 公开/公告号WO0002141A1

    专利类型

  • 公开/公告日2000-01-13

    原文格式PDF

  • 申请/专利权人 BI FUJUN;BLISS SHAUN;YAN HONG;

    申请/专利号WO1998CN00117

  • 发明设计人 BI FUJUN;BLISS SHAUN;YAN HONG;

    申请日1998-07-03

  • 分类号G06F17/30;

  • 国家 WO

  • 入库时间 2022-08-22 01:50:56

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号