首页> 外文会议>DEFT 2012 Workshop: Text Mining Challenge >Participation de l'IRISA à DeFT2012 : recherche d'information et apprentissage pour la génération de mots-clés
【24h】

Participation de l'IRISA à DeFT2012 : recherche d'information et apprentissage pour la génération de mots-clés

机译:IRISA参加DeFT2012:信息研究和学习以生成关键字

获取原文
获取原文并翻译 | 示例

摘要

Dans cet article, nous décrivons notre participation au Défi Fouille de Texte (DeFT) 2012. Ce défi consistait en l'attribution automatique de mots-clés à des articles scientifiques en français, selon deux pistes pour lesquelles nous avons employé des approches différentes. Pour la première piste, une liste de mots-clés était fournie. Nous avons donc abordé ce problème comme une tâche de recherche d'information dans laquelle les mots-clés sont les requêtes. Cette approche a donné d'excellents résultats. Pour la seconde piste, seuls les articles étant fournis, nous avons employé une approche s'appuyant sur un extracteur de terme et une réordonnancement par apprentissage.%This paper describes the IRISA participation to the DeFT 2012 text-mining challenge. It consisted in the automatic attribution or generation of keywords to scientific journal articles. Two tasks were proposed which led us to test two different strategies. For the first task, a list of keywords was provided. Based on that, our first strategy is to consider that as an Information Retrieval problem in wich the keyword are the queries, which are attributed to the best ranked documents. This approach yielded very good results. For the second task, only the articles were known; for this task, our approach is chiefly based on a term extraction system whose results are reordered by machine learning.
机译:在本文中,我们描述了我们参加2012年文本搜索挑战赛(DeFT)的过程。该挑战在于根据我们使用不同方法的两条轨迹,自动为法语的科学文章分配关键字。对于第一个线索,提供了关键字列表。因此,我们将这个问题作为关键字作为查询的信息检索任务来解决。这种方法产生了极好的效果。对于第二部分,仅提供文章,我们使用了基于术语提取器和学习重新排序的方法。%本文介绍了IRISA参与DeFT 2012文本挖掘挑战。它包括对科学期刊文章的自动归因或关键字生成。提出了两项​​任务,这使我们测试了两种不同的策略。对于第一个任务,提供了关键字列表。在此基础上,我们的第一个策略是考虑作为查询的信息检索问题,其中包含关键字的查询是归因于排名最高的文档。这种方法产生了很好的结果。对于第二项任务,只知道文章。对于此任务,我们的方法主要基于术语提取系统,其结果通过机器学习进行重新排序。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号