首页> 中文学位 >陕西省“科技云”中数据质量的验证方法
【6h】

陕西省“科技云”中数据质量的验证方法

代理获取

目录

声明

插图索引

表格索引

符号对照表

缩略语对照表

第一章 绪论

1.1研究背景

1.2课题来源及意义

1.3国内外研究现状

1.4课题研究内容和组织结构

第二章 数据质量及“科技云”平台概述

2.1数据质量概述

2.2“科技云”平台简述

2.3“科技云”数据资源

2.4本章小结

第三章 “科技云”数据预处理及质量评估

3.1“科技云”数据预处理

3.2“科技云”数据质量评估

3.3 “科技云”数据清洗

3.4本章小结

第四章 “科技云”中数据冗余及缺失值的验证及处理

4.1重复缺失数据概述

4.2完全重复数据验证方法

4.3基于动态规划算法的信息缩写重复数据验证及处理

4.4基于最近邻插补法和关联规则的数据缺失验证及处理

4.5本章小结

第五章 “科技云”数据验证及分析

5.1数据应用实例概述

5.2实验结果及分析

5.3本章小结

第六章 总结与展望

6.1本文总结

6.2未来展望

参考文献

致谢

作者简介

展开▼

摘要

大数据时代对企业存储、数据管理和数据挖掘提出了新的挑战。数据质量是有效分析和利用大数据的前提。陕西省科技厅通过收集上报等方式跨地域,跨部门从分散的科技服务节点汇集大量科技信息资源。但是由于节点部门间没有规范统一的数据格式;人为操纵失误导致数据重复录入或错误登记;科技信息数据统计不详、漏报、漏填导致数据缺失;使得收集存储的科技信息资源存在不完整、不一致、出现异常数据等严重的数据质量问题。本文以陕西省科技资源统筹中心“科技云”项目为背景,分析和总结项目中的数据的质量问题,着重针对科技信息数据质量的两大问题进行验证:一是由于组织机构名称的缩写造成数据的冗余。二是科技信息数据部分缺失值的填补问题。
  本文首先介绍了数据质量的研究背景和意义,阐述数据质量的基本概念与“科技云”平台数据预处理工作的关键技术。建立“科技云”数据质量评估维度,根据评估维度制定科技信息数据的数据质量评估标准,针对科技人才数据库和科技文献数据库的数据质量问题进行分析和总结。对简单的重复数据进行验证,其中包括:完全重复信息和相似性重复信息等。在此基础上提出由于科技信息数据中组织机构名称缩写导致数据冗余的验证方法。在科技信息数据中,数据缺失问题导致数据挖掘结果不准确,关键属性的缺失致使数据样本减少,影响数据分析结果。针对数据缺失的问题提出利用最近邻插补与关联规则相结合的方法对缺失数据进行填补。
  最后,设计并实现以上方法,并应用于“科技云”项目。本文提取科技人才库和科技文献库的15643条数据进行实验,实验结果验证了“科技云”中数据冗余和数据缺失值填补方法的有效性和可行性。

著录项

  • 作者

    雷蕾娟;

  • 作者单位

    西安电子科技大学;

  • 授予单位 西安电子科技大学;
  • 学科 计算机技术
  • 授予学位 硕士
  • 导师姓名 鱼滨,张晓红;
  • 年度 2017
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.131;
  • 关键词

    科技信息; 数据质量; 缺失值处理; 数据冗余;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号