【24h】

ROADRUNNER: Towards Automatic Data Extraction from Large Web Sites

机译:ROADRUNNER:致力于从大型网站自动提取数据

获取原文
获取原文并翻译 | 示例

摘要

The paper investigates techniques for extracting data from HTML sites through, the use of automatically generated wrappers. To automate the wrapper generation and the data extraction process, the paper develops a novel technique to compare HTML pages and generate a wrapper based on their similarities and differences. Experimental results on real-life data-intensive Web sites confirm the feasibility of the approach.
机译:本文研究了使用自动生成的包装程序通过HTML网站提取数据的技术。为了使包装器的生成和数据提取过程自动化,本文开发了一种新颖的技术来比较HTML页面并根据它们的异同来生成包装器。在现实生活中的数据密集型网站上的实验结果证实了该方法的可行性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号