首页> 中文学位 >大数据清洗系统中优化技术的研究与实现
【6h】

大数据清洗系统中优化技术的研究与实现

代理获取

目录

封面

中文摘要

英文摘要

目录

第1章 绪论

1.1 研究的背景和意义

1.2 MapReduce程序优化的相关研究

1.3 有关数据清洗的研究

1.4 本文研究内容

1.5 本文的结构

第2章 预备知识与优化方法

2.1 海量数据清洗系统概述

2.2 FLI三层体系的提出

2.3 利用FLI三层体系进行优化

第3章 实体识别子系统优化的研究

3.1 实体识别系统的实现

3.2 分析与优化

3.3 实验结果及分析

3.4 本章小结

第4章 不一致修复子系统优化的研究

4.1不一致数据修复系统地实现

4.2 分析与优化

4.3 实验结果及分析

4.4 本章小结

第5章 缺失值填充子系统的优化

5.1 缺失值填充系统的实现

5.2 分析与优化

5.3 实验结果及分析

5.4 本章小节

结论

参考文献

攻读硕士学位期间发表的论文

声明

致谢

展开▼

摘要

随着IT技术的发展,信息数据充满着现代生活的每一个角落,大数据时代的来临更使得这些数据更为耀眼。人们疯狂地从数据中汲取营养的同时,数据质量问题也逐渐暴露出来,例如数据冗余、数据不一致、错误数据、缺失数据等。因此数据质量在大数据时代显得尤为重要,海量信息的数据清洗与容错管理系统应运而生。现有的对海量数据处理的信息系统一般都运行在时下最流行的开源框架Hadoop上,但是由于各种各样的原因,往往效率低下。
  数据质量问题会对大数据的应用产生致命影响,因此需要对存在数据质量问题的大数据进行清洗。MapReduce编程框架可以利用并行技术实现高可扩展性的大数据清洗,然而,由于缺乏有效的设计,在基于MapReduce的数据清洗过程中存在计算的冗余,导致性能的降低。因此本文的目的是对并行数据清洗过程进行优化从而提高效率。
  本文做出了如下工作。首先,通过研究发现数据清洗中一些任务往往都运行在同一输入文件上或者利用同样的运算结果,基于该发现本文提出了一种新的优化技术——基于任务合并的优化技术。针对冗余计算和利用同一输入文件的简单计算进行合并,通过这种合并可以减少MapReduce的轮数从而减少系统运行的时间,最终达到系统优化的目标。第二,本文提出的FLI三层体系让我们从一个系统优化的视角去分析软件系统,和基于任务合并的优化技术一道,建立了一整套从系统分析到具体实施的数据清洗优化理论。第三,本文针对数据清洗过程中多个复杂的模块进行了优化,具体来说分别对实体识别模块、不一致数据修复模块和缺失值填充模块进行了优化。实验结果表明,本文提出的策略可以有效提高数据清洗的效率。

著录项

  • 作者

    李宁宁;

  • 作者单位

    哈尔滨工业大学;

  • 授予单位 哈尔滨工业大学;
  • 学科 计算机技术
  • 授予学位 硕士
  • 导师姓名 杨东华;
  • 年度 2016
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.52;
  • 关键词

    数据清洗; 软件开发; 功能模块; 优化设计;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号