【24h】

WebSelF: A Web Scraping Framework

机译:WebSelF:Web爬网框架

获取原文

摘要

We present WebSelF, a framework for web scraping which models the process of web scraping and decomposes it into four conceptually independent, reusable, and composable constituents. We have validated our framework through a full parameterized implementation that is flexible enough to capture previous work on web scraping. We conducted an experiment that evaluated several qualitatively different web scraping constituents (including previous work and combinations hereof) on about 11,000 HTML pages on daily versions of 17 web sites over a period of more than one year. Our framework solves three concrete problems with current web scraping and our experimental results, indicate that composition of previous and our new techniques achieve a higher degree of accuracy, precision and specificity than existing techniques alone.
机译:我们介绍WebSelF,这是一个用于Web抓取的框架,该框架可对Web抓取的过程进行建模,并将其分解为四个概念上独立,可重用和可组合的组成部分。我们已经通过完全参数化的实现对我们的框架进行了验证,该实现足够灵活以捕获以前有关Web抓取的工作。我们进行了一项实验,在超过一年的时间内,在17个网站的每日版本上的大约11,000个HTML页面上评估了几种质量上不同的网络抓取组件(包括以前的工作及其组合)。我们的框架解决了当前网页抓取的三个具体问题以及我们的实验结果,表明与单独使用现有技术相比,现有技术和新技术的组合可实现更高的准确性,准确性和特异性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号