【24h】

Automatic Acquisition of Named Entity Tagged Corpus from World Wide Web

机译:从万维网自动获取具名实体标记语料库

获取原文

摘要

In this paper, we present a method that automatically constructs a Named Entity (NE) tagged corpus from the web to be used for learning of Named Entity Recognition systems. We use an NE list and an web search engine to collect web documents which contain the NE instances. The documents are refined through sentence separation and text refinement procedures and NE instances are finally tagged with the appropriate NE categories. Our experiments demonstrates that the suggested method can acquire enough NE tagged corpus equally useful to the manually tagged one without any human intervention.
机译:在本文中,我们提出了一种方法,该方法可从网络上自动构建一个带有名称实体(NE)标记的语料库,以用于名称实体识别系统的学习。我们使用网元列表和网络搜索引擎来收集包含网元实例的网络文档。通过句子分离和文本细化过程来细化文档,并最终用适当的NE类别标记NE实例。我们的实验表明,所建议的方法无需人工干预即可获得足够多的NE标记语料库,该语料库与手动标记的语料库同样有用。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号