首页> 中文学位 >数据预处理方法在移动通信企业的应用研究
【6h】

数据预处理方法在移动通信企业的应用研究

代理获取

目录

文摘

英文文摘

论文说明:图表目录

声明

致谢

第一章 绪论

1.1背景和意义

1.2国内外现状

1.2.1数据预处理的内涵

1.2.2数据预处理方法现状

1.3本文的工作和内容组织

第二章 数据质量问题与数据预处理方法

2.1数据质量问题

2.1.1数据质量问题概念

2.1.2数据质量问题分类

2.2数据清洗

2.2.1缺失数据处理

2.2.2噪声数据处理

2.3数据集成与变换

2.3.1数据集成

2.3.2数据变换

2.4数据归约

2.4.1数据立方体聚集和属性子集选择

2.4.2数据压缩和数值归约

2.5数据质量问题和数据预处理方法的对应关系

2.6本章小结

第三章 主要清洗方法对比分析

3.1缺失数据概述

3.2缺失数据清理方法

3.3基于填充技术的缺失值处理方法

3.3.1基于分类的方法

3.3.2基于关联规则的方法

3.3.3基于统计的方法

3.4缺失数据处理方法的对比分析

3.5本章小结

第四章 数据预处理方法在移动通信数据中的应用

4.1移动通信数据现状

4.2移动通信数据预处理

4.2.1选择相关属性

4.2.2属性的集成与构造

4.2.3异常数据处理

4.2.4缺失数据处理

4.2.5重复数据处理

4.2.6离散化数据和规范化

4.2.7样本数据抽取

4.3清洗效果的评估

4.4本章小结

第五章 总结与展望

5.1工作总结

5.2研究展望

参考文献

展开▼

摘要

现实世界的数据往往是不完整,不一致和有噪音的,致使我们在进行数据挖掘之前必须进行一定的数据预处理工作。数据预处理的主要内容包括:数据清洗、数据集成、数据变换和数据规约。本文是在系统分析总结数据预处理各种方法的前提下,针对某移动通信公司离网用户数据共有70多张表,400多个属性,最高缺失率为28.3%,含记录最多的表有200多万条的特点,选用了数据预处理中的10余种方法对数据进行预处理的过程。
   本文的主要工作如下:
   (1)文中首先提出了数据质量问题的概念,并对各种数据质量问题对应的数据预处理方法进行了总结。
   (2)针对28.3%的数据缺失情况,放弃简单删除的传统做法。提出采用数据插补方法,并对各类数据插补方法进行对比分析,最终选取多重插补算法。由于应用插补的数据有683715条,属于大规模数据,为了保证插补效果,我们先通过小样本实验的方法,在比较插补效果后,确定了最佳插补次数,最终完成插补过程。得到了完整的并且近似真实的数据集。
   (3)通过多重插补、属性子集选择、属性集成、属性构造、离散化数据、规范化数据、数据抽样等方法后,将得到的数据代入数据挖掘模型中,所获取的信息得到了项目方的充分肯定。从而验证了数据预处理的有效性和意义。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号