首页> 外文OA文献 >Unsupervised Information Extraction From Text Extraction and Clustering of Relations between Entities
【2h】

Unsupervised Information Extraction From Text Extraction and Clustering of Relations between Entities

机译:文本提取中的无监督信息提取与实体间关系的聚类

摘要

L'extraction d'information non supervisée en domaine ouvert est une évolution récente de l'extraction d'information adaptée à des contextes dans lesquels le besoin informationnel est faiblement spécifié. Dans ce cadre, la thèse se concentre plus particulièrement sur l'extraction et le regroupement de relations entre entités en se donnant la possibilité de traiter des volumes importants de données.L'extraction de relations se fixe plus précisément pour objectif de faire émerger des relations de type non prédéfini à partir de textes. Ces relations sont de nature semi-structurée : elles associent des éléments faisant référence à des structures de connaissance définies a priori, dans le cas présent les entités qu elles relient, et des éléments donnés uniquement sous la forme d une caractérisation linguistique, en l occurrence leur type. Leur extraction est réalisée en deux temps : des relations candidates sont d'abord extraites sur la base de critères simples mais efficaces pour être ensuite filtrées selon des critères plus avancés. Ce filtrage associe lui-même deux étapes : une première étape utilise des heuristiques pour éliminer rapidement les fausses relations en conservant un bon rappel tandis qu'une seconde étape se fonde sur des modèles statistiques pour raffiner la sélection des relations candidates.Le regroupement de relations a quant à lui un double objectif : d une part, organiser les relations extraites pour en caractériser le type au travers du regroupement des relations sémantiquement équivalentes et d autre part, en offrir une vue synthétique. Il est réalisé dans le cas présent selon une stratégie multiniveau permettant de prendre en compte à la fois un volume important de relations et des critères de regroupement élaborés. Un premier niveau de regroupement, dit de base, réunit des relations proches par leur expression linguistique grâce à une mesure de similarité vectorielle appliquée à une représentation de type sac-de-mots pour former des clusters fortement homogènes. Un second niveau de regroupement est ensuite appliqué pour traiter des phénomènes plus sémantiques tels que la synonymie et la paraphrase et fusionner des clusters de base recouvrant des relations équivalentes sur le plan sémantique. Ce second niveau s'appuie sur la définition de mesures de similarité au niveau des mots, des relations et des clusters de relations en exploitant soit des ressources de type WordNet, soit des thésaurus distributionnels. Enfin, le travail illustre l intérêt de la mise en œuvre d un clustering des relations opéré selon une dimension thématique, en complément de la dimension sémantique des regroupements évoqués précédemment. Ce clustering est réalisé de façon indirecte au travers du regroupement des contextes thématiques textuels des relations. Il offre à la fois un axe supplémentaire de structuration des relations facilitant leur appréhension globale mais également le moyen d invalider certains regroupements sémantiques fondés sur des termes polysémiques utilisés avec des sens différents. La thèse aborde également le problème de l'évaluation de l'extraction d'information non supervisée par l'entremise de mesures internes et externes. Pour les mesures externes, une méthode interactive est proposée pour construire manuellement un large ensemble de clusters de référence. Son application sur un corpus journalistique de grande taille a donné lieu à la construction d'une référence vis-à-vis de laquelle les différentes méthodes de regroupement proposées dans la thèse ont été évaluées.
机译:开放域中的无监督信息提取是信息提取的最新发展,适用于对信息需求缺乏明确说明的情况。在这种情况下,论文通过提供处理大量数据的可能性而更加着重于实体之间的关系的提取和分组,更精确地设置了关系的提取以产生关系。来自文本的非预定义类型。这些关系本质上是半结构化的:它们结合了引用先验定义的知识结构的元素(在这种情况下,它们链接的实体)以及仅以语言表征形式给出的元素(在这种情况下)他们的类型。它们的提取分两个阶段进行:首先根据简单但有效的标准提取候选关系,然后根据更高级的标准进行过滤。此过滤本身包含两个阶段:第一个阶段使用启发式方法通过保持良好的提示来快速消除虚假关系,而第二个阶段则基于统计模型来完善候选关系的选择。具有双重目标:一方面,通过对语义上等价的关系进行分组来组织提取的关系以表征其类型,另一方面,提供一种综合的观点。在当前情况下,它是根据多级策略执行的,从而可以考虑大量的关系和已制定的分组标准。归因于向量相似度的度量,应用于词袋类型的表示以形成高度均一的聚类,第一级分组称为基本分组,通过其语言表达将紧密的关系聚在一起。然后应用第二级分组来处理更多的语义现象,例如同义词和释义,并合并覆盖语义级上等效关系的基本簇。此第二级别基于通过使用WordNet类型的资源或分布式叙词表在单词,关系和关系簇级别上的相似性度量的定义。最后,除了上面提到的分组的语义维度之外,该作品还说明了实现根据主题维度进行的关系聚类的兴趣。通过对关系的文本主题上下文进行分组,可以间接进行此聚类。它既提供了结构化关系的附加轴,以促进它们的全局理解,又提供了基于具有不同含义的多义词使某些语义分组无效的方法。本文还解决了通过内部和外部措施评估无监督信息提取的问题。对于外部测量,提出了一种交互式方法来手动构建大量参考簇。它在大型新闻语料库上的应用引起了对参考文献的构建,对本文提出的不同分组方法进行了评估。

著录项

  • 作者

    WANG Wei; GRAU Brigitte;

  • 作者单位
  • 年度 2013
  • 总页数
  • 原文格式 PDF
  • 正文语种 French
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号