首页> 外文会议>International conference on very large data bases;VLDB 2008 >Scalable Ad-hoc Entity Extraction from Text Collections
【24h】

Scalable Ad-hoc Entity Extraction from Text Collections

机译:从文本集合中可扩展的临时实体提取

获取原文

摘要

Supporting entity extraction from large document collections is important for enabling a variety of important data analysis tasks. In this paper, we introduce the "ad-hoc" entity extraction task where entities of interest are constrained to be from a list of entities that is specific to the task. In such scenarios, traditional entity extraction techniques that process all the documents for each ad-hoc entity extraction task can be significantly expensive. In this paper, we propose an efficient approach that leverages the inverted index on the documents to identify the subset of documents relevant to the task and processes only those documents. We demonstrate the efficiency of our techniques on real datasets.
机译:支持从大型文档集中提取实体对于实现各种重要的数据分析任务非常重要。在本文中,我们介绍了“临时”实体提取任务,其中将感兴趣的实体限制为来自特定于该任务的实体列表。在这种情况下,为每个临时实体提取任务处理所有文档的传统实体提取技术可能会非常昂贵。在本文中,我们提出了一种有效的方法,该方法利用文档上的倒排索引来识别与任务相关的文档子集,并仅处理那些文档。我们证明了我们的技术在真实数据集上的效率。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号