【24h】

Learning Table Extraction from Examples

机译:从示例中学习表提取

获取原文
获取原文并翻译 | 示例

摘要

Information extraction from tables in web pages is a challenging problem due to the diverse nature of table formats and the vocabulary variants in attribute names. This paper presents a new approach to automated table extraction that exploits formatting cues in semi-structured HTML tables, learns lexical variants from training examples and uses a vector space model to deal with non-exact matches among labels. We conducted experiments with this method on a set of tables collected from 157 university web sites, and obtained the information extraction performance of 91.4% in the F1-measure, showing the effectiveness of the combined use of structural table parsing and example-based label learning.
机译:由于表格格式的多样性和属性名称中的词汇变体,从网页表格中提取信息是一个具有挑战性的问题。本文提出了一种新的自动表提取方法,该方法利用了半结构化HTML表中的格式提示,从训练示例中学习了词法变体,并使用向量空间模型来处理标签之间的不完全匹配。我们对从157个大学网站收集的一组表进行了这种方法的实验,在F1测度中获得了91.4%的信息提取性能,显示了结合使用结构表解析和基于示例的标签学习的有效性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号