首页> 中文学位 >重复和不完整数据的清理方法研究及应用
【6h】

重复和不完整数据的清理方法研究及应用

代理获取

目录

文摘

英文文摘

声明

第一章 绪 论

1.1 研究背景

1.2 数据预处理

1.2.1 数据预处理简介

1.2.2 数据清理的必要性

1.3 数据清理研究现状

1.3.1 国外研究现状

1.3.2 国内研究现状

1.3.3 存在的问题

1.4 论文的研究内容

1.5 论文的组织结构

第二章 数据质量与数据清理相关理论研究

2.1 数据质量

2.1.1 数据质量的定义

2.1.2 数据质量的分类

2.1.3 数据质量的评价指标

2.2 数据清理的定义

2.2.1 知识发现中数据清理定义

2.2.2 数据仓库中数据清理定义

2.2.3 综合数据质量管理数据清理定义

2.3 数据清理的原理

2.4 数据清理的基本流程

2.5 重复记录的清理技术

2.5.1 重复记录的定义

2.5.2 重复记录的清理步骤

2.5.3 重复记录检测的常用算法

2.5.4 重复记录的合并方法

2.6 不完整数据的清理技术

2.6.1 不完整数据的概念

2.6.2 不完整数据的清理步骤

2.6.3 不完整数据清理常用方法

2.7 本章小结

第三章 基于内码序值聚类的相似重复记录检测方法

3.1 相关概念

3.2 基本步骤

3.2.1 计算字符的内码序值

3.2.2 记录聚类算法

3.2.3 等级法计算字段权值

3.2.4 字段匹配

3.3 总体算法思想

3.4.实验分析

3.4.1 查准率和查全率对比

3.4.2 运行时间对比

3.5 本章小结

第四章 基于小波聚类加权1—NN的不完整数据清理方法

4.1 相关概念

4.2 基本步骤

4.2.1 小波聚类算法

4.2.2 属性的信息增益调整1—NN算法

4.3 总体算法思想

4.4 实验分析

4.5 本章小结

第五章 数据清理系统设计与应用

5.1引言

5.2 数据清理系统框架

5.3 系统功能模块分析

5.4 系统的算法库、规则库与评估库

5.5 数据清理系统的特点

5.6 数据清理系统的应用

5.6.1 系统设计背景

5.6.2 系统开发环境

5.6.3 系统功能界面

5.7 本章小结

第六章 总结与展望

6.1 全文总结

6.2 工作展望

参考文献

攻读硕士学位期间发表的论文

致 谢

展开▼

摘要

随着信息化产业的不断推进,企业积累的数据越来越多,激增的数据背后隐藏着重要信息,对企业作出正确、科学的决策,提高竞争力是至关重要的。为满足决策分析的需要,数据仓库应运而生。在数据仓库构建过程中,由于各种原因,数据仓库中含有重复的、不完整的以及异常的数据,即数据存在质量问题。高质量的数据是决策支持的前提条件,因此,为提高数据质量,对数据进行清理是非常必要的。
   本文先论述了数据预处理的相关知识,分析了数据清理的必要性以及国内外研究现状,并介绍了数据质量和数据清理的相关理论,阐述了数据清理的定义、原理与基本流程及相关清理技术。重点对相似重复记录检测及不完整数据清理方法做了深入研究,对相关算法进行了改进,并在此基础上设计了一个数据清理原型系统。本文主要工作如下:
   (1)在重复记录清理中,提出一种基于内码序值聚类的相似重复记录检测方法。该方法先选择关键字段或字段某些位,根据字符的内码序值,利用聚类思想将大数据集聚集成多个小数据集;再根据等级法计算各字段的权值,在各个小数据集中检测和消除相似重复记录。为避免关键字选择不当而造成记录漏查问题,采用多趟检测方法。实验表明该方法具有较好的检测精度和时间效率。
   (2)在不完整数据清理中,提出一种基于小波聚类加权1-NN的不完整数据清理方法。首先将数据集分成完整记录集和不完整记录集,然后对完整记录集利用小波聚类算法进行聚类,形成不同的子类,再判断不完整记录集中记录的可用性,利用加权1-NN方法找到不完整记录的最近邻子类,最后填充不完整记录缺失属性值。实验表明该方法具有较好填充效果。
   (3)在分析和研究多种清理框架基础上,设计一种数据清理原型系统。该系统具有开放的算法库、规则库与评估库,包含了丰富的清理算法和大量的清理规则,提供了多种质量评估指标。从分析体系结构各个模块的主要功能及其应用,体现了该系统具有良好的可扩展性、灵活性和交互性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号