首页> 外文会议>DEFT 2012 Workshop: Text Mining Challenge >Key-concept extraction from French articles with KX
【24h】

Key-concept extraction from French articles with KX

机译:使用KX从法语文章中提取关键概念

获取原文
获取原文并翻译 | 示例

摘要

Nous présentons une adaptation du système KX qui accomplit l'extraction non supervisée et multilingue des mots-clés, pour l'atelier d'évaluation francophone en fouille de textes (DEFT 2012). KX sélectionne une liste de mots-clés (avec leur poids) dans un document, en combinant des annotations linguistiques de base avec des mesures statistiques. Pour l'adapter à la langue française, un analyseur morphologique pour le Français a été ajouté au système pour dériver les patrons lexicaux. De plus, des paramètres comme les seuils de fréquence pour l'extraction de collocations, et les index de relevance des concepts-clés ont été calculés et fixés sur le corpus d'apprentissage. En concernant les pistes de DEFT 2012, KX a obtenu de bons résultats (Piste 1 -avec terminologie : 0.27 F1 ; Piste 2 : 0.19 F1) en demandant un effort réduit pour l'adaptation du domaine et du langage.%We present an adaptation for the French text mining challenge (DEFT 2012) of the KX system for multilingual unsupervised key-concept extraction. KX carries out the selection of a list of weighted keywords from a document by combining basic linguistic annotations with simple statistical measures. In order to adapt it to the French language, a French morphological analyzer (PoS-Tagger) has been added into the extraction pipeline, to derive lexical patterns. Moreover, parameters such as frequency thresholds for collocation extraction and indicators for key-concepts relevance have been calculated and set on the training documents. In the DEFT 2012 tasks, KX achieved good results (i.e. 0.27 Fl for Task 1 - with terminological list, and 0.19 Fl for Task 2) with a limited additional effort for domain and language adaptation.
机译:我们针对法国文本挖掘评估研讨会(DEFT 2012),介绍了KX系统的改编版,该系统可完成无监督和多语言的关键字提取。 KX从文档中选择关键字列表(及其权重),并将基本的语言注释与统计量相结合。为了使其适应法语,将法语的形态分析仪添加到系统中以导出词汇模式。另外,计算并提取了诸如搭配搭配的频率阈值和关键概念的相关性指标之类的参数,并将其固定在学习语料库上。关于DEFT 2012的轨迹,KX通过减少对域和语言的适应而获得了良好的效果(轨迹1-术语:0.27 F1;轨迹2:0.19 F1)。%针对多语种无监督键概念提取的KX系统的法语文本挖掘挑战(DEFT 2012)。通过将基本的语言注释与简单的统计量度结合起来,KX可以从文档中选择加权关键字列表。为了使其适应法语,已将法语形态分析器(PoS-Tagger)添加到提取管道中,以导出词汇模式。此外,已计算出诸如搭配搭配提取的频率阈值和关键概念相关性指标之类的参数,并将其设置在培训文档中。在DEFT 2012任务中,KX取得了不错的成绩(即任务1含术语列表为0.27 Fl,任务2为0.19 Fl),并且在领域和语言适应方面付出了额外的努力。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号