首页> 外文期刊>Document Numerique >Classification de flux de documents évolutifs avec apprentissage de classes inconnues
【24h】

Classification de flux de documents évolutifs avec apprentissage de classes inconnues

机译:通过学习未知类别对不断发展的文档流进行分类

获取原文
获取原文并翻译 | 示例
       

摘要

In this paper, we propose a stream-based semi-supervised active learning method for document classification, which is able to query (from an operator) the class labels of documents that are informative, according to an uncertainty measure. The method maintains a dynamically evolving graph topology of labelled document-representatives, which constitutes a covered feature space. The method is able to automatically discover the emergence of novel classes in the stream. An incoming document is identified as a member of a novel class or an existing class, depending on whether it is outside or inside the area covered by the known classes. Experiments on different real datasets show that the proposed method requires a small amount of the incoming documents to be labelled, in order to learn a model which achieves better or equal accuracy than to the usual supervised methods with fully labelled training documents.%Dans cet article, on propose un algorithme semi-supervisé actif pour la classification de flux continu de documents. Cet algorithme, basé sur une méthode adaptative d'apprentissage non supervisé, permet de repérer les documents les plus informatifs à l'aide d'une mesure d'incertitude pour demander leur étiquette à un opérateur. Il construit et maintient un modèle sous forme d'un graphe à topologie dynamique dont les nœuds sont des représentants de documents étiquetés, formant ce qu 'on appelle l'"espace couvert par les classes connues". Il permet de détecter automatiquement les nouvelles classes apparaissant dans le flux. Un document est identifié comme membre d'une nouvelle classe ou d'une classe connue, selon qu'il se trouve à l'extérieur ou à l'intérieur de l'espace couvert par les classes connues. Les expérimentations effectuées sur des ensembles de documents réels montrent que la méthode nécessite peu de documents à étiqueter et qu 'elle atteint des performances comparables aux méthodes supervisées qui sont entraînées sur des ensembles de documents présents en mémoire et entièrement étiquetés.
机译:在本文中,我们提出了一种基于流的半监督主动学习方法进行文档分类,该方法能够根据不确定性度量(从操作员中查询)具有信息性的文档的类别标签。该方法维护了带有标签的文档代表的动态演化图拓扑,该拓扑构成了一个覆盖的特征空间。该方法能够自动发现流中新颖类的出现。传入文档被确定为新颖类或现有类的成员,这取决于它是在已知类所覆盖的区域之外还是内部。在不同的真实数据集上进行的实验表明,所提出的方法需要对少量传入文档进行标记,以便学习一种模型,该模型比带有完整标签的训练文档的常规监督方法具有更好或相同的准确性。%Dans cet article ,提出了一种基于算法的半监督行为分类和通量连续性文档。 CET算法,无监督学的基础设施监督,文件的永久代表以及不确定的信息,请确保需求的准确性。代表宪法的永久性和永久性的动态,代表文件的原告人,原告人的“按要求交往的高级法院”。新型自动检测仪类别助焊剂。联合国可持续发展组织奖得主是塞隆·奎尔·塞鲁夫·科特迪瓦·科特迪瓦·库尔弗·库尔弗勒·科努斯。集体演出在法国的蒙特雷·蒙特雷·梅塞德剧院举行的表演比赛,演出和演出的可比的辅助演出监督员在整个演出过程中都得到了监督。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号