首页> 外文会议>International world wide web conference >Learning page-independent heuristics for extracting data from Web pages
【24h】

Learning page-independent heuristics for extracting data from Web pages

机译:学习独立于网页中提取数据的独立启发式

获取原文
获取外文期刊封面目录资料

摘要

One bottleneck in implementing a system that intelligently queries the Web is developing 'wrappers' - programs that extract data from Web pages. Here we describe a method for learning general, page-independent heuristics for extracting data from HTL documents. The input to our learning system is a set of working wrapper programs, paired with HTML pages they correctly wrap. The output is a general procedure for extracting data that works for many formats and many pages. In experiments with a collection of 84 constrained but realistic extraction problems, we demonstrate that 30% of the problems can be handled perfectly by learned extraction heuristics, and around 50% can be handled acceptable. We also demonstrate that learned page-independent extraction heuristics can substantially improve the performance of methods for learning page-specific wrappers.
机译:实现智能查询Web的系统的一个瓶颈正在开发“包装器” - 从网页中提取数据的程序。在这里,我们描述了一种学习一般,页面无关的启发式的方法,用于从HTL文档中提取数据。我们学习系统的输入是一组工作包装程序,与他们正确包装的HTML页面配对。输出是提取适用于多种格式和许多页面的数据的一般过程。在实验中,在一个受限制但逼真的提取问题的收集中,我们证明了30%的问题可以通过学习的提取启发式完全处理,可以接受约50%。我们还证明了学习的页面独立的提取启发式机会可以大大提高学习Page特定的包装方法的方法的性能。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号