首页> 中文学位 >数据挖掘中数据预处理的方法研究
【6h】

数据挖掘中数据预处理的方法研究

代理获取

目录

文摘

英文文摘

声明

第1章绪论

1.1论文的选题意义

1.2论文的选题基础

1.3研究背景

1.4本文研究的主要内容

1.5论文结构

第2章数据挖掘简介

2.1知识发现与数据挖掘概述

2.2数据挖掘的任务

2.3数据挖掘的方法

2.4数据挖掘的发展与前景

第3章数据预处理

3.1数据预处理的必要性

3.2数据预处理的主要方法

3.3数据清理

3.3.1填充缺失值

3.3.2光滑噪声数据

3.3.3数据清理过程

3.4数据集成

3.5数据变换

3.6数据归约

3.6.1数据立方体聚集

3.6.2属性子集选择

3.6.3维度归约

3.6.4数值归约

3.6.5数据离散化与概念分层

第4章数据预处理方法的研究与改进

4.1对数据预处理方法的分析与思考

4.1.1不同阶段中相同的预处理方法

4.1.2预处理中的统计方法

4.2对数据预处理方法的整体改进意见

4.3初始数据源的获取

4.3.1度量数据的中心趋势

4.3.2度量数据的离散程度

4.4实例分析

4.4.1非线性相关分析

4.4.2非线性相关分析算法

4.4.3实例结果

第5章总结和未来的工作

参考文献

致谢

在学期间所发表的文章

展开▼

摘要

在现代的科研和实际工作中,各行各业都需要对采集到的各种各样的数据进行处理。如何从这些海量的数据之中发现更深层次、更重要的信息,使之能够描述数据的整体特征,可以预测发展趋势,从而生成决策。这就需要进行数据挖掘。数据挖掘与知识发现过程中的第一个步骤就是数据预处理。统计发现,在数据挖掘与知识发现的过程中,数据预处理占到了整个工作量的6096。因为现实世界的数据往往是不完整的、含噪声的和不一致的,数据预处理能有效提高数据质量,为数据挖掘内核提供更有针对性的可用数据,不仅可以节约大量的时间和空间,而且得到的挖掘结果能更好地起到决策和预测作用。目前数据预处理的常用步骤包括:数据清理、数据集成、数据变换以及数据归约。
   本文总结了目前数据预处理的常用方法,并对其分析和思考。发现有些方法可以在数据预处理的不同阶段使用,分别达到相应阶段的预处理效果。在预处理中用到了许多的统计方法,但需要与实际的数据特征和专业知识相结合才能有效地应用。强调了在预处理的每一个步骤都要与专业知识和实际应用相结合。考虑到若在数据获得初期就有一定的指导,可以减少数据获取的盲目性以及不必要的噪声引入,且为后期的工作节约大量的时间和空间,因此认为应该把数据源的获取作为预处理的一个步骤。在预处理的实际应用过程中,上述步骤并不是相互独立的,而是相关联的,因而提倡对数据预处理采取循环的模式。最后针对银行房贷信用风险评估课题中所遇到的数据预处理问题,结合数据特征,考虑到与之相关的各个因素的内在相关性,使用一种基于全局的非线性相关分析技术,这是一种统计方法,来对该问题进行讨论,并且实证研究。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号