首页> 美国卫生研究院文献>Big Data >Liberal Entity Extraction: Rapid Construction of Fine-Grained Entity Typing Systems
【2h】

Liberal Entity Extraction: Rapid Construction of Fine-Grained Entity Typing Systems

机译:自由实体提取:细粒度实体键入系统的快速构建

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

The ability of automatically recognizing and typing entities in natural language without prior knowledge (e.g., predefined entity types) is a major challenge in processing such data. Most existing entity typing systems are limited to certain domains, genres, and languages. In this article, we propose a novel unsupervised entity-typing framework by combining symbolic and distributional semantics. We start from learning three types of representations for each entity mention: general semantic representation, specific context representation, and knowledge representation based on knowledge bases. Then we develop a novel joint hierarchical clustering and linking algorithm to type all mentions using these representations. This framework does not rely on any annotated data, predefined typing schema, or handcrafted features; therefore, it can be quickly adapted to a new domain, genre, and/or language. Experiments on genres (news and discussion forum) show comparable performance with state-of-the-art supervised typing systems trained from a large amount of labeled data. Results on various languages (English, Chinese, Japanese, Hausa, and Yoruba) and domains (general and biomedical) demonstrate the portability of our framework.
机译:在没有先验知识(例如,预定义的实体类型)的情况下以自然语言自动识别和键入实体的能力是处理此类数据的主要挑战。大多数现有的实体键入系统仅限于某些领域,体裁和语言。在本文中,我们通过结合符号语义和分布语义来提出一种新颖的无监督实体类型框架。我们从学习针对每个实体提及的三种类型的表示开始:常规语义表示,特定上下文表示和基于知识库的知识表示。然后,我们开发了一种新颖的联合层次聚类和链接算法,以使用这些表示来键入所有提及。该框架不依赖于任何带注释的数据,预定义的键入模式或手工制作的功能。因此,它可以快速适应新的领域,体裁和/或语言。流派(新闻和讨论论坛)上的实验表明,与通过大量标记数据训练而成的最新的监督型打字系统相比,该系统具有可比的性能。各种语言(英语,中文,日语,豪萨语和约鲁巴语)和领域(普通和生物医学)的结果证明了我们框架的可移植性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号