首页> 外文期刊>Revue d'Intelligence Artificielle >Classification de courriers électroniques: Une approche par apprentissage basée sur des modèles linguistiques
【24h】

Classification de courriers électroniques: Une approche par apprentissage basée sur des modèles linguistiques

机译:电子邮件分类:一种基于语言模型的学习方法

获取原文
获取原文并翻译 | 示例
           

摘要

Nous proposons une double amélioration des systèmes de filtrage de courriels existants. D'une part, en utilisant une méthode d'apprentissage automatique permettant à un système de filtrage d'élaborer des profils utilisateur. D'autre part, nous utilisons un ensemble de connaissances linguistiques sous forme de modèles réduits issues de modèles linguistiques de textes. Dans ce contexte, nous cherchons à évaluer si l'utilisation de connaissances et de traitements linguistiques peut améliorer les performances d'un système de filtrage. En effet, nous utilisons, au-delà des caractéristiques lexicales, un ensemble d'indicateurs sur le message portant sur la structure et le contenu. Ces connaissances sont indépendantes du domaine d'application et la fiabilité repose sur l'opération d'apprentissage. Pour tenter de statuer sur la faisabilité de notre approche et d'évaluer son efficacité, nous l'avons expérimenté sur un corpus de 1 200 messages. Nous présentons les résultats d'un ensemble d'expériences d'évaluation.%We propose a two-fold improvement to the existing e-mail filtering systems : firstly, by using an automatic learning method which will allow the filtering system to create user profiles. Secondly, we use a set of linguistic information in the form of reduced models, based on linguistic models of texts. In this area we aim to evaluate if using linguistic information and analysis can improve the performance of a filtering system. Indeed, as well as using lexical characteristics, we use a range of indicators based on structure and content of the messages. This information is independent to the application domain and reliability depends on the learning operation. In order to evaluate the feasibility of our approach and its reliability, we have experimented with a corpus of 1200 messages. We present here the results of a set of evaluation experiments.
机译:我们对现有的电子邮件过滤系统进行了双重改进。一方面,通过使用允许过滤系统开发用户资料的自动学习方法。另一方面,我们以简化模型的形式使用一组语言知识,这些模型是由文本的语言模型产生的。在这种情况下,我们试图评估语言知识和处理方法的使用是否可以提高过滤系统的性能。实际上,我们在词汇特征之外还使用了一组与结构和内容有关的消息指示符。该知识独立于应用领域,可靠性基于学习操作。为了决定我们方法的可行性并评估其有效性,我们在1,200条消息的语料库上对其进行了测试。我们提出了一组评估经验的结果。%我们提出了对现有电子邮件过滤系统的双重改进:首先,通过使用一种自动学习方法,该方法将允许过滤系统创建用户个人资料。其次,基于文本的语言模型,我们以简化模型的形式使用一组语言信息。在这一领域,我们旨在评估使用语言信息和分析是否可以提高过滤系统的性能。实际上,除了使用词汇特征外,我们还根据消息的结构和内容使用了一系列指标。此信息与应用程序域无关,可靠性取决于学习操作。为了评估该方法的可行性及其可靠性,我们尝试了1200条消息的语料库。我们在这里介绍了一组评估实验的结果。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号