文摘
英文文摘
声明
第一章 绪 论
1.1 研究背景
1.2 数据预处理
1.2.1 数据预处理简介
1.2.2 数据清理的必要性
1.3 数据清理研究现状
1.3.1 国外研究现状
1.3.2 国内研究现状
1.3.3 存在的问题
1.4 论文的研究内容
1.5 论文的组织结构
第二章 数据质量与数据清理相关理论研究
2.1 数据质量
2.1.1 数据质量的定义
2.1.2 数据质量的分类
2.1.3 数据质量的评价指标
2.2 数据清理的定义
2.2.1 知识发现中数据清理定义
2.2.2 数据仓库中数据清理定义
2.2.3 综合数据质量管理数据清理定义
2.3 数据清理的原理
2.4 数据清理的基本流程
2.5 重复记录的清理技术
2.5.1 重复记录的定义
2.5.2 重复记录的清理步骤
2.5.3 重复记录检测的常用算法
2.5.4 重复记录的合并方法
2.6 不完整数据的清理技术
2.6.1 不完整数据的概念
2.6.2 不完整数据的清理步骤
2.6.3 不完整数据清理常用方法
2.7 本章小结
第三章 基于内码序值聚类的相似重复记录检测方法
3.1 相关概念
3.2 基本步骤
3.2.1 计算字符的内码序值
3.2.2 记录聚类算法
3.2.3 等级法计算字段权值
3.2.4 字段匹配
3.3 总体算法思想
3.4.实验分析
3.4.1 查准率和查全率对比
3.4.2 运行时间对比
3.5 本章小结
第四章 基于小波聚类加权1—NN的不完整数据清理方法
4.1 相关概念
4.2 基本步骤
4.2.1 小波聚类算法
4.2.2 属性的信息增益调整1—NN算法
4.3 总体算法思想
4.4 实验分析
4.5 本章小结
第五章 数据清理系统设计与应用
5.1引言
5.2 数据清理系统框架
5.3 系统功能模块分析
5.4 系统的算法库、规则库与评估库
5.5 数据清理系统的特点
5.6 数据清理系统的应用
5.6.1 系统设计背景
5.6.2 系统开发环境
5.6.3 系统功能界面
5.7 本章小结
第六章 总结与展望
6.1 全文总结
6.2 工作展望
参考文献
攻读硕士学位期间发表的论文
致 谢