...
首页> 外文期刊>SIGMOD record >Using Wikipedia to Bootstrap Open Information Extraction
【24h】

Using Wikipedia to Bootstrap Open Information Extraction

机译:使用维基百科引导开放信息提取

获取原文
获取原文并翻译 | 示例
           

摘要

By converting unstructured, natural-language text to relational form, information extraction enables many powerful Data Management techniques. However, in order to scale IE to the Web, we must focus on open IE - a paradigm that tackles an unbounded number of relations, eschews domain-specific training data, and scales computationally [2, 11]. This paper describes Kylin, which uses self-supervised learning to train relationally-targeted extractors from Wikipedia infoboxes. We explained how shrinkage and retraining allow Kylin to improve extractor robustness, and we demonstrate that these extractors can successfully mine tuples from a broader set of Web pages. Finally, we argued that the best way to utilize human efforts is by inviting humans to quickly validate the correctness of machine-generated extractions.
机译:通过将非结构化的自然语言文本转换为关系形式,信息提取可实现许多强大的数据管理技术。但是,为了将IE扩展到Web,我们必须专注于开放式IE –一种解决无数关系,避免特定于域的训练数据并进行计算扩展的范例[2,11]。本文介绍了Kylin,它使用自我监督学习来训练Wikipedia信息框中的关系定位提取器。我们解释了收缩和重新训练如何使Kylin改善提取器的鲁棒性,并且我们证明了这些提取器可以成功地从更广泛的Web页面中挖掘元组。最后,我们认为,利用人类努力的最佳方法是邀请人类快速验证机器生成的提取的正确性。

著录项

  • 来源
    《SIGMOD record》 |2008年第4期|62-68|共7页
  • 作者单位

    Computer Science & Engineering University of Washington Seattle, WA-98195, USA;

    Computer Science & Engineering University of Washington Seattle, WA-98195, USA;

    Computer Science & Engineering University of Washington Seattle, WA-98195, USA;

  • 收录信息
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号