首页> 外文期刊>RSTI >Une mesure de similarité sémantique pour la classification de documents par le contenu
【24h】

Une mesure de similarité sémantique pour la classification de documents par le contenu

机译:用于按内容分类文档的语义相似性度量

获取原文
获取原文并翻译 | 示例
           

摘要

Dans cet article, nous proposons une approche pour classifier des documents à partir de leur contenu. Le contenu des documents est exprimé par des annotations représentées sous forme d'arbres. Étant donnée une hiérarchie d'annotations g╚ériques, notre approche vise à rattacher une annotation spécifique à une ou plusieurs classes possibles dans la hiérarchie. Ce processus de classification repose sur une mesure de similarité qui permet de mesurer l'écart entre une annotation spécifique et une annotation générique. Un schéma d'algorithme de classification de documents est proposé à partir de cette mesure de similarité.%In this paper, we propose an approach for content-based classification of textual documents. The annotation related to the content of a document is represented as a tree. Then we define classes of annotations that are organized within a hierarchy (of trees). The objective of our approach is to recognize for a given annotation the classes of annotations to which it can be attached. This classification process is based on a similarity measure, allowing the comparison of the tree structure of annotations. A schema of algorithm for this similarity-based process of classification of documents is proposed.
机译:在本文中,我们提出了一种根据文档内容对文档进行分类的方法。文档的内容由以树形式表示的注释表示。给定通用注释的层次结构,我们的方法旨在将特定注释附加到层次结构中的一个或多个可能的类上。该分类过程基于相似性度量,该相似性度量测量特定注释和通用注释之间的差异。通过这种相似性度量,提出了一种文档分类算法的方案。%本文提出了一种基于内容的文本文档分类方法。与文档内容有关的注释表示为树。然后,我们定义在(树的)层次结构内组织的注释类。我们方法的目的是为给定注释识别可以附加到注释的注释类别。该分类过程基于相似性度量,从而可以比较注释的树结构。针对这种基于相似度的文档分类过程,提出了一种算法模式。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号