基于Hadoop的水情数据清洗方案研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着网络的不断发展，分布式存储的航运数据快速积累，数据量迅猛增长，目前的航运数据具有庞大、繁杂，良莠不齐的特点。而在这庞大繁杂的数据中，数据既包含了大量有重要价值的信息，有待研究人员挖掘；还包含了大量的问题数据，给数据的有效挖掘造成了不良影响。因此，问题数据的清洗是数据挖掘过程的首要任务。然而，现有的许多数据清洗方案清洗的广度不够，只能解决数据中的部分问题，没有全面的解决方案。同时，清洗时间效率不高，针对大数据的处理，现有解决方案比较少。
　　针对以上的问题，本文以航运数据中的结构化的水情数据作为基本研究、实验对象，针对数据中可能存在的缺失，离群和重复的数据问题，提出了一套基于Hadoop的分布式、清洗策略可选的清洗方案，根据清洗需求，选择合适的清洗策略。本文的主要工作如下：
　　（1）针对缺失数据清洗算法的准确性问题，本文提出了以缺失数据为聚类中心的思想，首先对缺失数据集进行聚类，并利用基于权重的数据填充算法对缺失数据进行填充，改进了基于聚类的缺失数据清洗算法。同时，利用MapReduce编程模型对算法并行化实现。实验证明，改进的缺失数据清洗算法有效地保证了类中数据对象和聚类中心之间的高相关性，缺失数据清洗的填充精度提高了约10％。
　　（2）针对离群数据清洗算法的时间效率问题，本文提出了聚类分区和剪枝的方法，改进了基于距离的离群数据清洗算法。通过聚类分区和剪枝的方法，筛选待清洗的区域，缩小了离群数据的检测范围，减少了计算量。同时，利用MapReduce编程模型对改进算法并行化实现。实验证明，改进的离群数据清洗算法的时间效率提高了约30%。
　　（3）针对现有的基于近邻排序（Sorting Neighborhood，SN）的重复数据清洗算法的检出性能低问题，本文提出了利用多关键字和多窗口的多趟近邻排序（Multi-Pass Sorting Neighborhood，MPSN）算法进行重复数据清洗。同时对改进的重复数据清洗算法并行化实现，在重复数据清洗算法并行化过程中，使用边界值复制和自动化分区的方法，解决了节点之间数据的比较问题和数据重分布问题。实验证明，改进的重复数据清洗算法的检出性能提升了约13%。

著录项

作者
陈琼妮;
展开▼
作者单位

武汉理工大学;

展开▼
授予单位武汉理工大学;
学科信息与通信工程
授予学位硕士
导师姓名肖攸安;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
数据清洗; 聚类分区; 聚类剪枝; 多趟近邻排序;

相似文献

中文文献
外文文献
专利

1. 基于Hadoop平台的数据清洗研究 [J] . 范会丽 ,彭宁 ,任薇 . 电脑知识与技术 . 2020,第005期
2. 基于大数据的ETL中的数据清洗方案研究 [J] . 周瀚章 ,冯广 ,龚旭辉 . 工业控制计算机 . 2018,第012期
3. 基于Hadoop高校大数据平台建设方案的研究 [J] . 刘丽 . 信息与电脑 . 2021,第017期
4. 基于Hadoop的电信大数据采集方案研究与实现 [J] . 汪保友 ,钱晶 ,袁时金 . 电信科学 . 2017,第001期
5. 基于Hadoop平台的地铁NCC数据中心方案研究 [J] . 朱东升 ,徐石明 ,李天阳 . 计算机测量与控制 . 2017,第012期
6. 一种基于Hadoop和K-means的Web日志分析方案的设计 [C] . Fu Wei ,付伟 ,Bai Yongchao . 第十九届全国青年通信学术年会 . 2014
7. 基于Hadoop的交通数据清洗研究与应用研究 [A] . 王奎 . 2017

基于Hadoop的水情数据清洗方案研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅