大数据清洗系统中优化技术的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着IT技术的发展，信息数据充满着现代生活的每一个角落，大数据时代的来临更使得这些数据更为耀眼。人们疯狂地从数据中汲取营养的同时，数据质量问题也逐渐暴露出来，例如数据冗余、数据不一致、错误数据、缺失数据等。因此数据质量在大数据时代显得尤为重要，海量信息的数据清洗与容错管理系统应运而生。现有的对海量数据处理的信息系统一般都运行在时下最流行的开源框架Hadoop上，但是由于各种各样的原因，往往效率低下。
　　数据质量问题会对大数据的应用产生致命影响，因此需要对存在数据质量问题的大数据进行清洗。MapReduce编程框架可以利用并行技术实现高可扩展性的大数据清洗，然而，由于缺乏有效的设计，在基于MapReduce的数据清洗过程中存在计算的冗余，导致性能的降低。因此本文的目的是对并行数据清洗过程进行优化从而提高效率。
　　本文做出了如下工作。首先，通过研究发现数据清洗中一些任务往往都运行在同一输入文件上或者利用同样的运算结果，基于该发现本文提出了一种新的优化技术——基于任务合并的优化技术。针对冗余计算和利用同一输入文件的简单计算进行合并，通过这种合并可以减少MapReduce的轮数从而减少系统运行的时间，最终达到系统优化的目标。第二，本文提出的FLI三层体系让我们从一个系统优化的视角去分析软件系统，和基于任务合并的优化技术一道，建立了一整套从系统分析到具体实施的数据清洗优化理论。第三，本文针对数据清洗过程中多个复杂的模块进行了优化，具体来说分别对实体识别模块、不一致数据修复模块和缺失值填充模块进行了优化。实验结果表明，本文提出的策略可以有效提高数据清洗的效率。

著录项

作者
李宁宁;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机技术
授予学位硕士
导师姓名杨东华;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.52;
关键词
数据清洗; 软件开发; 功能模块; 优化设计;

相似文献

中文文献
外文文献
专利

1. 大数据技术在优化思想政治教育工作中的重要作用研究——评《大数据时代大学生思想政治教育工作的优化研究》 [J] . 马利强 . 中国科技论文 . 2020,第007期
2. 大数据技术在优化思想政治教育工作中的重要作用研究--评《大数据时代大学生思想政治教育工作的优化研究》 [J] . 马利强 . 中国科技论文 . 2020,第007期
3. 云技术及大数据下高校教学管理优化策略——评《云技术及大数据在高校生活中的应用》 [J] . 刘晶 ,崔磊 . 中国科技论文 . 2021,第012期
4. 大数据技术在通信网络优化中的运用研究 [J] . 梁勇华 . 通信电源技术 . 2021,第006期
5. 大数据技术在通信网络优化中的应用研究 [J] . 于世泽 ,韩恺敏 ,许宏如 . 数字通信世界 . 2021,第005期
6. 油田原油罐COWS-ST清洗系统应用优化技术研究 [C] . 杜贵君 ,吕志萍 . 中国石油石化环保科技成果专题研讨会 . 2014
7. 大数据背景下基于抽样的近似聚合查询优化技术研究与实现 [A] . 张轩 . 2016

大数据清洗系统中优化技术的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅