多数据源环境下重复记录检测的研究
RESEARCH ON DUPLICATE RECORD DETECTION ALGORITHMS IN HETEROGENEOUS DATA SOURCES
摘要
Abstract
第1章绪论
1.1 课题背景及研究的目的和意义
1.2 重复记录检测问题简介
1.3 国内外研究现状
1.4 本文的主要研究工作
1.5 本文的结构
第2章属性和记录的相似度度量的理论基础
2.1引言
2.2本文所研究的数据类型
2.3属性相似度度量
2.4记录相似度度量
2.5本章小结
第3章基于二分图匹配的重复记录检测算法
3.1引言
3.2研究目的
3.3问题定义
3.4朴素的重复记录检测算法
3.5基于快速划分的算法优化
3.6基于关键属性的算法优化
3.7实验结果及分析
3.8本章小结
第4章基于相似度估计的重复记录检测算法
4.1引言
4.2研究目的及意义
4.3问题定义与算法基本思想
4.4算法理论基础及基本假设
4.5相似度范围估计方法
4.6算法实验
4.7本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其它成果
哈尔滨工业大学硕士学位论文原创性声明
致谢