61SPA. Funciones de Similitud sobre Cadenas de Texto: Una Comparacion Basada en la Naturaleza de los Datos

机译：61SPA。关于文本链的相似性功能：基于数据性质的比较

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

La deteccion de duplicados hace referencia al conflicto que se presenta en los datos cuando una misma entidad del mundo real aparece representada dos o mas veces a traves de una o varias bases de datos, en registros o tuplas con igual estructura pero sin un identificador unico y presentan diferencias en sus valores. Multiples funciones de similitud han sido desarrolladas para detectar cuales cadenas son similares mas no identicas, es decir, cuales se refieren a una misma entidad. En el presente articulo se compara, mediante una metrica de evaluacion llamada discernibilidad, la eficacia de nueve de estas funciones de similitud sobre cadenas de texto (Levenshtein, Brecha Afin, Smith-Waterman, Jaro, Jaro-Winkler, Bi-grams, Tri-grams, Monge-Elkan y SoftTF-IDF) usando para ello seis situaciones problematicas (introduccion de errores ortograficos, uso de abreviaturas, palabras faltantes, introduccion de prefijos/sufijos sin valor semantico, reordenamiento de palabras y eliminacion/adicion de espacios en blanco). Los resultados muestran que algunas funciones de similitud tienen a fallar en ciertas situaciones problematicas y que ninguna es superior al resto en todas ellas.

机译：重复检测是指在当现实世界的同一实体通过一个或多个数据库表示的两个或更多次的数据呈现的冲突，在记录或tupes具有相同的结构，但没有一个唯一的标识符，并在他们目前的分歧他们值。多相似的功能已经发展到检测哪些链是类似的大多数不明，也就是说，它指的是同一实体。在本文中，它相比，由度量评估称为分辨的的手段，对文本链相似的这些功能九（的Levenshtein，间隙AFIN，史密斯 - 沃特曼，哈罗，哈罗-温克勒，碧克的功效，三克，MONGE -埃尔肯和SOFTTF-IDF）使用此问题的情况下（正字引入错误，使用缩写，漏字，引进前缀/后缀的无语义值，文字和消除重排/白加空格）。结果表明，一些相似的功能已经在某些问题的情况下失败，并且没有优于其他所有他们。

著录项

来源
《International Conference on Information Resources ManagementcConf-IRM》|2010年||共12页
会议地点
作者
Ivan Amon; Claudia Jimenez;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类 G20-53;
关键词
Calidad de datos; Limpieza de datos; Deteccion de Duplicados; Funciones de Similitud;

机译：数据质量;清洁数据;重复检测;相似函数;
入库时间 2022-08-20 21:47:37

相似文献

外文文献
中文文献
专利

1. USO DE MINER??A DE DATOS PARA DETERMINAR LA DISPONIBILIDAD DE UNA RED IP V.4 EN UNA CADENA DE TERMINALES DISTRIBUIDOS. ESTUDIO DE CASO EN UNA EMPRESA DE JUEGOS DE AZAR [J] . Lorena Rojas Pradenas, Parra Carlos Pesquisa Operacional para o Desenvolvimento . 2012,第3期

机译：使用数据挖掘确定分布式终端链中IP V.4网络的可用性。一家游戏公司的案例研究
2. De los estudios locales a una perspectiva regional: análisis integrado de datos secundarios en un proyecto colaborativo sobre vulnerabilidades asociadas al uso de drogas en Argentina, Brasil y Uruguay (1998-2004) [J] . Ralón Gonzalo, Rossi Diana, Vila Marcelo, Salud Colectiva . 2012,第3期

机译：从地方研究到区域角度：在阿根廷，巴西和乌拉圭（1998-2004年）关于与吸毒有关的脆弱性的合作项目中对二级数据进行综合分析
3. Una nota sobre la controlabilidad de Sistemas Lineales de Primer Orden con funciones iniciales holomorfas en los Complejos Elípticos [J] . Mármol Luis Gerardo, Vanegas Judith Revista colombiana de matematicas . 2018,第1期

机译：关于椭圆复形中具有全纯初始函数的一阶线性系统的可控性
4. 61SPA. Funciones de Similitud sobre Cadenas de Texto: Una Comparacion Basada en la Naturaleza de los Datos [C] . Ivan Amon, Claudia Jimenez International Conference on Information Resources ManagementcConf-IRM . 2010

机译：61SPA。关于文本链的相似性功能：基于数据性质的比较
5. Análisis Exploratorio Del Proceso Para recopilación De Datos Sobre Determinantes Sociales En Los Centros De Salud Primaria En Puerto Rico = Exploratory analysis of the process to collect data on social determinants in Primary Health Centers in Puerto Rico [D] . Cordero Rosario, Darielys. 2020

机译：波多黎各初级卫生中心社会决定因素数据收集进程的探索性分析= Puerto Rico初级卫生中心地区社会决定因素数据的探索性分析
6. Ensayo clínico aleatorizado de una intervención intensiva sobre los estilos de vida de pacientes con hiperfibrinogenemia en prevención primaria de las enfermedades cardiovasculares en el ámbito de la atención primaria de salud [O] . J.J. Rodríguez Cristóbal, F. Benavides Márquez, C. Villaverde Grote, 2005

机译：随机临床试验对初级保健领域心血管疾病初期预防心血管生成血症患者生活方式的临床试验
7. ¿Para qué la educación ambiental? este caso, tenemos que considerar los cuatro aspectos como un todo, como un conjunto. Son los cuatro puntos que forman un mismo plano, una misma realidad. No obstante, voy a fijarme en este cuarto aspecto: paz de la persona con la naturaleza, y, tratar de explicar el porqué y el para qué de la educación ambiental. Insisto, en absoluto pretendo decir que sea el más importante, simplemente, es el que pretendo tratar en este estudio. El concepto oriental de paz-felicidad, permite estudiar la educación ambiental de manera que nos lleve a sentirnos en paz con la naturaleza, con el medio que nos rodea. Si aislamos la educación ambiental de este concepto, queda incompleta. Se puede establecer otra relación. Desde mi punto de vista, también es importante la relación conocer-respetar-amar. No se puede amar lo que no se respeta y no se puede respetar lo que no se conoce. Amamos a aquéllos que conocemos, que nos son cercanos, que hacemos nuestros y nosotros nos consideramos de ellos. Si conocemos y respetamos la naturaleza podremos ser parte integrante de ella y la querremos. Es evidente que nunca haremos daño a nada ni a nadie si de verdad lo amamos. Esto lo tenemos que llevar a nuestra vida en la más temprana infancia. Como educadores, en el fondo todos lo somos para bien o para mal, debemos hacer que el educando lo descubra desde los primeros momentos de su vida. La interacción del niño con el medio comienza en el momento de su alumbramiento. Los objetivos de la educación ambiental, formulados por la conferencia de Tbilisi 2, relacionados con los objetivos generales de la Educación Primaria y Secundaria, nos explican de manera más científica lo anteriormente expuesto: Conciencia: Ayudar a los grupos sociales y a los individuos a adquirir una conciencia del medio ambiente global y ayudarlos a sensibilizarse por esas cuestiones. Conocimientos: Ayudar a los grupos sociales y a los individuos a adquirir una diversidad de experiencias y una comprensión fundamental del medio y de los problemas anexos. Comportamientos: Ayudar a los grupos sociales y a los individuos a compenetrarse con una serie de valores, y a sentir interés y preocupación por el medio [O] . Alfonso de Maruri Álvarez 2002

机译：为什么环境教育？这种情况下，我们要考虑的四个方面作为一个整体，作为一个整体。它们是形成同一平面上，同样的现实的四个点。不过，我会固定在这第四个方面：人与自然的人的和平，并试图解释为什么和怎么样的环境教育。我坚持，在所有我打算说，这是最重要的，简单说，就是我打算处理在本研究中的一个。和平，幸福的概念东方，允许的方式，使我们感到与大自然和平，与我们周围的环境中学习环保教育。如果我们孤立这个概念的环境教育，它是不完整的。另一个无法建立。从我的角度来看，这种关系也很重要，要知道尊重爱。你可以不爱什么是不尊重，你可以不尊重什么是不知道的。我们爱我们知道，我们是离我们很近，我们做我们的，我们认为他们自己。如果我们了解并尊重自然，我们可以成为其中的一个组成部分，我们希望它。显然，我们永远不会伤害任何东西或任何人，如果我们真的爱它。我们必须采取我们的生活中最早的童年。作为教育者，在内心深处，我们都使用它是好是坏，我们必须使教育从你的生活的第一时刻发现它。与介质孩子的互动开始在其交付的时间。环境教育的目标，由第比利斯会议2，有关小学和中学教育的总体目标制定，解释更科学地解释上述的：意识：帮助社会团体和个人获得全球环境和帮助他们认识的意识这些问题。知识：帮助社会团体和个人获得的各种经验和环境问题吞并的基本认识。行为：帮助社会团体和个人的能力与一系列的价值观，并感到对环境的兴趣和关注

61SPA. Funciones de Similitud sobre Cadenas de Texto: Una Comparacion Basada en la Naturaleza de los Datos

摘要

著录项

相似文献

相关主题

期刊订阅