A data cleaning method for heterogeneous attribute fusion and record linkage

Hui-Juan Zhu; Tong-Hai Jiang; Yi Wang; Li Cheng; Bo Ma; Fan Zhao

首页> 外文期刊>International Journal of Computational Science and Engineering >A data cleaning method for heterogeneous attribute fusion and record linkage

【24h】

A data cleaning method for heterogeneous attribute fusion and record linkage

机译：异构属性融合和记录联动的数据清洁方法

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

In big data era, massive heterogeneous data are generated from various data sources, the cleaning of dirty data is critical for reliable data analysis. Existing rule-based methods are generally developed in single data source environment, issues like data standardisation and duplication detection for different data type attributes, are not fully studied. In order to address these challenges, we introduce a method based on dynamic configurable rules which can integrate data detection, modification and transformation together. Secondly, we propose a type-based blocking and a varying window size selection mechanism based on classic sorted-neighbourhood algorithm. We present a reference implementation of our method in a real-life data fusion system and validate its effectiveness and efficiency using recall and precision metrics. Experimental results indicate that our method is suitable in the scenario of multiple data sources with heterogeneous attribute properties.

机译：在大数据时代，来自各种数据源产生的大规模异构数据，脏数据的清洁对于可靠的数据分析至关重要。基于规则的方法通常在单个数据源环境中开发，没有完全研究数据标准化和不同数据类型属性的数据标准化和复制检测的问题。为了解决这些挑战，我们介绍了一种基于动态可配置规则的方法，可以将数据检测，修改和转换集成在一起。其次，我们提出了一种基于类型的阻塞和基于经典分类邻域算法的不同窗口尺寸选择机制。我们在现实生活数据融合系统中提到了我们的方法，并使用召回和精密度量来验证其有效性和效率。实验结果表明，我们的方法适用于具有异构属性属性的多个数据源的场景。

著录项

来源
《International Journal of Computational Science and Engineering》 |2019年第3期|共14页
作者
Hui-Juan Zhu; Tong-Hai Jiang; Yi Wang; Li Cheng; Bo Ma; Fan Zhao;
展开▼
作者单位

The Xinjiang Technical Institute of Physics and Chemistry Chinese Academy of Sciences No. 40-1;

The Xinjiang Technical Institute of Physics and Chemistry Chinese Academy of Sciences No. 40-1;

The Xinjiang Technical Institute of Physics and Chemistry Chinese Academy of Sciences No. 40-1;

The Xinjiang Technical Institute of Physics and Chemistry Chinese Academy of Sciences No. 40-1;

The Xinjiang Technical Institute of Physics and Chemistry Chinese Academy of Sciences No. 40-1;

The Xinjiang Technical Institute of Physics and Chemistry Chinese Academy of Sciences No. 40-1;

展开▼
收录信息
原文格式 PDF
正文语种 eng
中图分类计算技术、计算机技术;
关键词
big data; varying window; data cleaning; record linkage; record similarity; SNM; type-based blocking;

机译：大数据;不同的窗口;数据清洁;记录联动;记录相似度;SNM;基于类型的阻塞;

相似文献

外文文献
中文文献
专利

1. A data cleaning method for heterogeneous attribute fusion and record linkage [J] . Hui-Juan Zhu, Tong-Hai Jiang, Yi Wang, International Journal of Computational Science and Engineering . 2019,第3期

机译：异构属性融合和记录联动的数据清洁方法
2. Linkage of Maternity Hospital Episode Statistics data to birth registration and notification records for births in England 2005-2014: methods. A population-based birth cohort study,Linkage of Maternity Hospital Episode Statistics data to birth registratio [J] . Nirupa Dattani, Alison Macfarlane BMJ Open . 2018,第2期

机译：产科医院情节统计数据与出生登记和英格兰2005-2014年出生通知记录的链接：方法。一项基于人口的出生队列研究，将妇产科医院情节统计数据与出生登记相关联
3. Multi-view heterogeneous fusion and embedding for categorical attributes on mixed data [J] . Soft computing: A fusion of foundations, methodologies and applications . 2020,第14期

机译：多视图异构融合和混合数据上的分类属性嵌入
4. Febrl - An Open Source Data Cleaning, Deduplication and Record Linkage System with a Graphical User Interface [C] . Peter Christen ACMKDD International Conference on Knowledge Discovery and Data Mining;KDD 2008 . 2008

机译：Febrl-具有图形用户界面的开源数据清理，重复数据删除和记录链接系统
5. Data preparation for biomedical knowledge domain visualization: A probabilistic record linkage and information fusion approach to citation data. [D] . Synnestvedt, Marie B. 2007

机译：用于生物医学知识域可视化的数据准备：引用记录的概率记录链接和信息融合方法。
6. The effect of data cleaning on record linkage quality [O] . Sean M Randall, Anna M Ferrante, James H Boyd, 2013

机译：数据清理对记录链接质量的影响
7. Reclink: aplicativo para o relacionamento de bases de dados, implementando o método probabilistic record linkage Reclink: an application for database linkage implementing the probabilistic record linkage method [O] . Kenneth R. de Camargo Jr., Cláudia M. Coeli 2000

机译：Reclink：用于数据库关系的应用程序，实现概率记录链接方法Reclink：用于数据库链接的应用程序，实现概率记录链接方法

A data cleaning method for heterogeneous attribute fusion and record linkage

摘要

著录项

相似文献

相关主题

期刊订阅