首页> 中文学位 >多数据源环境下重复记录检测问题的研究
【6h】

多数据源环境下重复记录检测问题的研究

代理获取

目录

多数据源环境下重复记录检测的研究

RESEARCH ON DUPLICATE RECORD DETECTION ALGORITHMS IN HETEROGENEOUS DATA SOURCES

摘要

Abstract

第1章绪论

1.1 课题背景及研究的目的和意义

1.2 重复记录检测问题简介

1.3 国内外研究现状

1.4 本文的主要研究工作

1.5 本文的结构

第2章属性和记录的相似度度量的理论基础

2.1引言

2.2本文所研究的数据类型

2.3属性相似度度量

2.4记录相似度度量

2.5本章小结

第3章基于二分图匹配的重复记录检测算法

3.1引言

3.2研究目的

3.3问题定义

3.4朴素的重复记录检测算法

3.5基于快速划分的算法优化

3.6基于关键属性的算法优化

3.7实验结果及分析

3.8本章小结

第4章基于相似度估计的重复记录检测算法

4.1引言

4.2研究目的及意义

4.3问题定义与算法基本思想

4.4算法理论基础及基本假设

4.5相似度范围估计方法

4.6算法实验

4.7本章小结

结论

参考文献

攻读硕士学位期间发表的论文及其它成果

哈尔滨工业大学硕士学位论文原创性声明

致谢

展开▼

摘要

数据质量管理如同产品质量管理一样贯穿于数据生命周期的各个阶段,在许多领域中,如商业、体育、音乐、旅游等,有大量的数据源提供的数据信息重复。这些重复记录会给系统的用户在很多方面造成不便(如数据冗余、不一致、额外的资源耗费等),导致系统的可用性降低。因而需要我们能正确快速的将一个数据集合中的重复记录识别出来。
  当前的重复记录检测工作主要考虑如何在相同模式下做重复记录的检测工作,而面对大量的模式异构的记录时,首先要做模式匹配,将模式统一之后,在统一的模式下做重复记录检测的工作。但是当记录集合来自于大量异构数据源,且其中存在着模式未知的情况时,重复记录检测工作则变得十分困难。
  为了能够正确有效地处理这种情况,本文提出了基于二分图匹配的相似度度量方法和重复记录检测方法。本文研究了包含数据模式异构复杂并且模式信息缺失的的数据集合上的重复记录检测问题,在第二章提出了适合该情况的基于二分图匹配的相似度度量,并以此为基础在第三章提出了适用于上述情况的重复记录检测算法。基于二分图最优匹配的重复记录检测算法具有考虑到模式异构,支持多种数据类型等特点,适用于大量异构数据源情况的重复记录检测。然而,这种方法的不足之处在于其需要较大的时间开销,且由于其分类要求严苛,使得算法召回率受到影响。第四章针对基于二分图最优匹配的方法存在的两个问题,基于编辑距离满足三角不等式以及记录相似度和属性相似度满足线性关系这两个性质,提出了一种基于记录相似度估计的高效重复记录检测算法,弥补了原始算法的两个缺点。理论分析和实验结果都表明了本文方法的正确性和有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号