首页> 外文会议>Proceedings of the Eighth international world wide web conference >Learning page-independent heuristics for extracting data from Web pages
【24h】

Learning page-independent heuristics for extracting data from Web pages

机译:学习与页面无关的启发式方法,以从Web页面提取数据

获取原文
获取原文并翻译 | 示例

摘要

One bottleneck in implementing a system that intelligently queries the Web is developing 'wrappers' -- programs that extract data from Web pages. Here we describe a method for learning general, page-independent heuristics for extracting data from HTML documents. The input to our learning system is a set of working wrapper programs, paired with HTML pages they correctly wrap. The output is a general procedure for extracting data that works for many formats and many pages. In experiments with a collection of 84 constrained but realistic extraction problems, we demonstrate that 30precent of the problems can be handled perfectly by learned extraction heuristics, and around 50precent can be handled acceptably. We also demonstrate that learned page-independent extraction heuristics can substantially improve the performance of methods for learning page-specific wrappers.
机译:实现智能查询Web的系统的一个瓶颈是开发“包装程序”(wrapper),即从网页提取数据的程序。在这里,我们描述了一种用于学习一般的,与页面无关的启发式方法的方法,该启发式方法用于从HTML文档中提取数据。我们学习系统的输入是一组有效的包装程序,以及正确包装的HTML页面。输出是提取可用于多种格式和许多页面的数据的通用过程。通过对84个受约束但现实的提取问题进行的实验,我们证明了30%的问题可以通过学习的提取试探法完美地解决,大约50%的问题可以被接受。我们还证明,独立于页面的提取启发式学习可以大大提高学习特定于页面的包装器的方法的性能。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号