【24h】

Schema-Guided Wrapper Maintenance for Web-Data Extraction

机译:Web数据提取的架构指导包装维护

获取原文
获取原文并翻译 | 示例

摘要

Extracting data from Web pages using wrappers is a fundamental problem arising in a large variety of applications of vast practical interests. There are two main issues relevant to Web-data extraction, namely wrapper generation and wrapper maintenance. In this paper, we propose a novel schema-guided approach to the problem of automatic wrapper maintenance. It is based on the observation that despite various page changes, many important features of the pages are preserved, such as syntactic patterns, annotations, and hyperlinks of the extracted data items. Our approach uses these preserved features to identify the locations of the desired values in the changed pages, and repair wrappers correspondingly by inducing semantic blocks from the HTML tree. Our intensive experiments on real Web sites show that the proposed approach can effectively maintain wrappers to extract desired data with high accuracies.
机译:使用包装器从网页中提取数据是一个具有广泛实践兴趣的应用程序中出现的一个基本问题。与Web数据提取有关的两个主要问题是包装器生成和包装器维护。在本文中,我们针对自动包装维护的问题提出了一种新的模式指导方法。基于这样的观察,尽管进行了各种页面更改,但是页面的许多重要功能仍然保留,例如语法模式,注释和提取的数据项的超链接。我们的方法使用这些保留的功能来标识更改页面中所需值的位置,并通过从HTML树中引入语义块来相应地修复包装器。我们在真实网站上的密集实验表明,该方法可以有效地维护包装器,以高精度地提取所需数据。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号