【24h】

WebSelF: A Web Scraping Framework

机译:WebSelf:Web刮框架

获取原文

摘要

We present WebSelF, a framework for web scraping which models the process of web scraping and decomposes it into four conceptually independent, reusable, and composable constituents. We have validated our framework through a full parameterized implementation that is flexible enough to capture previous work on web scraping. We conducted an experiment that evaluated several qualitatively different web scraping constituents (including previous work and combinations hereof) on about 11,000 HTML pages on daily versions of 17 web sites over a period of more than one year. Our framework solves three concrete problems with current web scraping and our experimental results indicate that composition of previous and our new techniques achieve a higher degree of accuracy, precision and specificity than existing techniques alone.
机译:我们呈现WebSelf,这是一个用于Web删除的框架,它模拟了Web刮擦的过程,并将其分解为四个概念独立,可重复使用和可协调的成分。我们通过完整的参数化实现验证了我们的框架,这足以捕获以前的Web刮擦工作。我们进行了一项实验,该实验在一年多的17个网站上的每日版本的每日版本中的大约11,000个HTML页面评估了几个定性不同的Web刮板(包括以前的工作和组合)。我们的框架解决了三个具体的网页刮擦问题,我们的实验结果表明,先前和我们的新技术的组成达到了比现有技术更高的准确度,精度和特异性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号