首页> 外文会议>International Conference on Information Resources ManagementcConf-IRM >61SPA. Funciones de Similitud sobre Cadenas de Texto: Una Comparacion Basada en la Naturaleza de los Datos
【24h】

61SPA. Funciones de Similitud sobre Cadenas de Texto: Una Comparacion Basada en la Naturaleza de los Datos

机译:61SPA。关于文本链的相似性功能:基于数据性质的比较

获取原文

摘要

La deteccion de duplicados hace referencia al conflicto que se presenta en los datos cuando una misma entidad del mundo real aparece representada dos o mas veces a traves de una o varias bases de datos, en registros o tuplas con igual estructura pero sin un identificador unico y presentan diferencias en sus valores. Multiples funciones de similitud han sido desarrolladas para detectar cuales cadenas son similares mas no identicas, es decir, cuales se refieren a una misma entidad. En el presente articulo se compara, mediante una metrica de evaluacion llamada discernibilidad, la eficacia de nueve de estas funciones de similitud sobre cadenas de texto (Levenshtein, Brecha Afin, Smith-Waterman, Jaro, Jaro-Winkler, Bi-grams, Tri-grams, Monge-Elkan y SoftTF-IDF) usando para ello seis situaciones problematicas (introduccion de errores ortograficos, uso de abreviaturas, palabras faltantes, introduccion de prefijos/sufijos sin valor semantico, reordenamiento de palabras y eliminacion/adicion de espacios en blanco). Los resultados muestran que algunas funciones de similitud tienen a fallar en ciertas situaciones problematicas y que ninguna es superior al resto en todas ellas.
机译:重复检测是指在当现实世界的同一实体通过一个或多个数据库表示的两个或更多次的数据呈现的冲突,在记录或tupes具有相同的结构,但没有一个唯一的标识符,并在他们目前的分歧他们值。多相似的功能已经发展到检测哪些链是类似的大多数不明,也就是说,它指的是同一实体。在本文中,它相比,由度量评估称为分辨的的手段,对文本链相似的这些功能九(的Levenshtein,间隙AFIN,史密斯 - 沃特曼,哈罗,哈罗-温克勒,碧克的功效,三克,MONGE -埃尔肯和SOFTTF-IDF)使用此问题的情况下(正字引入错误,使用缩写,漏字,引进前缀/后缀的无语义值,文字和消除重排/白加空格)。结果表明,一些相似的功能已经在某些问题的情况下失败,并且没有优于其他所有他们。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号