首页> 外文会议>DEFT 2012 Workshop: Text Mining Challenge >Indexation libre et contrôlée d'articles scientifiques Présentation et résultats du défi fouille de textes DEFT2012
【24h】

Indexation libre et contrôlée d'articles scientifiques Présentation et résultats du défi fouille de textes DEFT2012

机译:科学文章的自由和受控索引文本挖掘挑战的演示和结果DEFT2012

获取原文
获取原文并翻译 | 示例

摘要

Dans cet article, nous présentons la campagne 2012 du défi fouille de texte (DEFT). Cette édition traite de l'indexation automatique par des mots-clés d'articles scientifiques au travers de deux pistes. La première fournit aux participants la terminologie des mots-clés employés dans les documents à indexer tandis que la seconde ne fournit pas cette terminologie, rendant la tâche plus complexe. Le corpus se compose d'articles scientifiques parus dans des revues de sciences humaines, indexés par leurs auteurs. Cette indexation sert de référence pour l'évaluation. Les résultats ont été évalués en termes de micro-mesures sur les rappel, précision et F-mesure calculés après lemmatisation de chaque mot-clé. Dans la piste fournissant la terminologie des mots-clés employés, la F-mesure moyenne est de 0,3575, la médiane de 0,3321 et l'écart-type de 0,2985 ; sur la seconde piste, en l'absence de terminologie, la F-mesure moyenne est de 0,2055, la médiane de 0,1901 et l'écart-type de 0,1516.%In this paper, we present the 2012 edition of the DEFT text-mining challenge. This edition addresses the automatic, keyword-based indexing of scientific papers through two tracks. The first gives to the participants the terminology of keywords used to index the documents, while the second does not provide this terminology. The corpus is composed of scientific papers published in humanities journals, indexed by their authors. This indexing is used as a reference for the evaluation. The results have been evaluated in terms of micro-measures on the recall, precision and F-measure computed after keyword lemmatization. In the track giving the terminology of used keywords, the mean F-measure is 0.3575, the median is 0.3321 and the standard deviation is 0.2985 ; in the second track, the mean F-measure is 0.2055, the median is 0.1901 and the standard deviation is 0.1516.
机译:在本文中,我们介绍了2012年文本挖掘挑战(DEFT)活动。该版本通过两个途径处理科学文章关键词的自动索引。第一种向参与者提供要索引的文档中使用的关键字的术语,而第二种则不提供此术语,从而使任务更加复杂。语料库由在人文期刊上发表的科学文章组成,并由其作者进行索引。此索引可作为评估的参考。根据对每个关键词进行词素化后的查全率,精确度和F测度的微观度量来评估结果。在提供所用关键字术语的路径中,平均F量度为0.3575,中位数为0.3321,标准差为0.2985;在第二种情况下,在没有术语的情况下,平均F度量为0.2055,中位数为0.1901,标准偏差为0.1516。%。本文介绍了2012年版DEFT文本挖掘挑战。该版本通过两个途径解决了对科学论文进行基于关键字的自动索引的问题。第一种向参与者提供用于为文档建立索引的关键字的术语,而第二种则不提供此术语。语料库由在人文期刊上发表的科学论文组成,并由其作者索引。该索引被用作评估的参考。结果已根据关键字词形还原后计算的查全率,准确性和F度量的微观度量进行了评估。在给出所用关键字术语的轨迹中,平均F量度为0.3575,中位数为0.3321,标准差为0.2985;在第二个轨道中,平均F度量为0.2055,中位数为0.1901,标准偏差为0.1516。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号