首页> 外文会议>Conference on traitement automatique des langues naturelles et rencontres des etudiants chercheurs en informatique pour le traitement automatique des langues >Similarités induites par mesure de comparabilité: signification et utilité pour le clustering et l'alignement de textes comparables
【24h】

Similarités induites par mesure de comparabilité: signification et utilité pour le clustering et l'alignement de textes comparables

机译:可比性度量引起的相似性:可比文本的聚类和对齐的意义和效用

获取原文

摘要

En présence de corpus comparables bilingues, nous sommes confrontés à des données qu'il est naturel de plonger dans deux espaces de représentation linguistique distincts, chacun éventuellement muni d'une mesure quantifiable de similarité (ou d'une distance). Dès lors que ces données bilingues sont comparables au sens d'une mesure de comparabilité également calculable (Li et Gaussier, 2010), nous pouvons établir une connexion entre ces deux espaces de représentation linguistique en exploitant une carte d'association pondérée ("mapping") appréhendée sous la forme d'un graphe bi-directionnel dit de comparabilité. Nous abordons dans cet article les conséquences conceptuelles et pratique d'une telle connexion similarité-comparabilité en développant un algorithme (Hit-ComSim) basé sur sur le principe de similarité induite par la topologie du graphe de comparabilité. Nous essayons de qualifier qualitativement l'intérêt de cet algorithme en considérant quelques expériences préliminaires de clustering de documents comparables bilingues (Français/Anglais) collectés sur des flux RSS.
机译:在存在可比较的双语语料库的情况下,我们面临的数据是,浸入两个不同的语言表示空间是很自然的,每个语言表示空间都可能提供相似性(或距离)的量化度量。只要这些双语数据在可计算的可比较性度量上具有可比性(Li和Gaussier,2010年),我们就可以通过使用加权关联图(“映射”)在这两个语言表示空间之间建立联系。双向图的形式称为可比性。在本文中,我们将根据可比性图的拓扑结构引发的相似性原理,通过开发一种算法(Hit-ComSim),讨论这种相似性-可比性连接的概念和实际后果。通过考虑对RSS提要上收集的可比较的双语文档(法语/英语)进行聚类的一些初步实验,我们尝试从质量上限制该算法的兴趣。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号