首页> 美国卫生研究院文献>BMC Medical Informatics and Decision Making >A proficient cost reduction framework for de-duplication of records in data integration
【2h】

A proficient cost reduction framework for de-duplication of records in data integration

机译:一个精通的成本降低框架用于数据集成中的重复数据删除

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

BackgroundRecord de-duplication is a process of identifying the records referring to the same entity. It has a pivotal role in data mining applications, which involves the integration of multiple data sources and data cleansing. It has been a challenging task due to its computational complexity and variations in data representations across different data sources. Blocking and windowing are the commonly used methods for reducing the number of record comparisons during record de-duplication. Both blocking and windowing require tuning of a certain set of parameters, such as the choice of a particular variant of blocking or windowing, the selection of appropriate window size for different datasets etc.
机译:BackgroundRecord重复数据删除是识别引用同一实体的记录的过程。它在数据挖掘应用程序中具有举足轻重的作用,它涉及多个数据源和数据清理的集成。由于其计算复杂性以及跨不同数据源的数据表示形式的差异,这一直是一项具有挑战性的任务。阻塞和窗口化是减少记录重复数据删除期间记录比较次数的常用方法。阻塞和窗口化都需要调整一组特定的参数,例如选择阻塞或窗口化的特定变体,为不同数据集选择合适的窗口大小等。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号