【24h】

Wrapper Generation for Overlapping Web Sources

机译:重叠Web资源的包装器生成

获取原文

摘要

Exploiting the huge amount of data available on the Web involves the generation of wrappers to extract data from web pages. We argue that existing approaches for web data extraction from data-intensive websites miss the opportunities related to the presence of redundant information on the Web. We propose an innovative approach that aims at pushing further the level of automation of existing wrapper generation systems by leveraging the redundancy of data on the Web. An experimental evaluation of the proposed solution shows a relevant improvement for the precision of the extracted data, without a significant loss in the recall.
机译:利用Web上可用的大量数据涉及生成包装程序以从网页提取数据。我们认为,从数据密集型网站提取Web数据的现有方法缺少与Web上存在冗余信息相关的机会。我们提出了一种创新方法,旨在通过利用Web上的数据冗余来进一步提高现有包装器生成系统的自动化水平。对所提出解决方案的实验评估表明,提取数据的精度有了显着提高,而召回率却没有明显损失。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号