【24h】

Zero-shot Entity Extraction from Web Pages

机译:从网页中抽取零镜头实体

获取原文

摘要

In order to extract entities of a fine-grained category from semi-structured data in web pages, existing information extraction systems rely on seed examples or redundancy across multiple web pages. In this paper, we consider a new zero-shot learning task of extracting entities specified by a natural language query (in place of seeds) given only a single web page. Our approach defines a log-linear model over latent extraction predicates, which select lists of entities from the web page. The main challenge is to define features on widely varying candidate entity lists. We tackle this by ing list elements and using aggregate statistics to define features. Finally, we created a new dataset of diverse queries and web pages, and show that our system achieves significantly better accuracy than a natural baseline.
机译:为了从网页中的半结构化数据中提取细粒度类别的实体,现有的信息提取系统依赖于种子示例或跨多个网页的冗余。在本文中,我们考虑了一个新的零击学习任务,该任务提取仅由单个网页提供的由自然语言查询(代替种子)指定的实体。我们的方法在潜在提取谓词上定义了对数线性模型,该模型从网页中选择实体列表。主要的挑战是在广泛变化的候选实体列表上定义特征。我们通过列出列表元素并使用汇总统计信息来定义特征来解决此问题。最后,我们创建了一个包含各种查询和网页的新数据集,并表明我们的系统比自然基准具有更高的准确性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号