海量不完整数据的核心数据选择问题的研究

刘永楠; 李建中; 高宏

首页> 中文期刊> 《计算机学报》 >海量不完整数据的核心数据选择问题的研究

海量不完整数据的核心数据选择问题的研究

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

在大数据时代,越来越多的带有缺失值的数据需要处理,因而数据不完整成为一种常见的数据质量问题.不完整的数据给大数据的查询、挖掘和分析带来了困难.在某些情况下,数据中的很多缺失值是无法被确定的.只能根据用户的需求,在不完整的数据上选择一部分用户感兴趣的核心数据集合,来提高不完整数据的可用性.完整度较高,规模较小,在用户感兴趣的属性上给出更多完整信息的核心数据集合,能够支持高效的查询处理,提高查询结果的准确性和完整性.该文形式化了核心数据选择问题,证明了这至少是一个NP-难问题.由于需要同时优化核心数据集合的完整度、集合的规模以及对于感兴趣属性的覆盖性,现有的基于集合覆盖问题的方法无法解决文中提出的问题.该文提出了一个采用贪心策略,具有理论保证的近似核心数据选择算法ACS.ACS首先判断当前的数据集合是否存在一个满足覆盖性要求的子集合.当这样的子集合存在时,ACS尽量选择完整的元组来组成核心数据集合,当使用完整元组无法满足覆盖性的要求时,ACS选择较少的不完整元组.ACS通过限制选择的次数来获得一个集合大小的上界是运行次数常数倍的子集合,并且保证了对于感兴趣的属性的覆盖比例.通过理论分析可知,ACS能够在近似线性的时间内,找到一个大小至多在给定的大小对数因子内的近似核心数据集合,其中被覆盖的感兴趣的属性的比例至少为(1-1/e),包含的不完整元组的个数至多为给定的核心数据集合的大小,其中e是自然对数的底数.通过在DBLP和NBA球员信息这两个真实数据集合上的实验,表明了所提出的算法ACS的有效性和高效性;通过在规模更大的合成数据上的实验,表明了ACS的良好的扩展性.

著录项

来源
《计算机学报》 |2018年第4期|915-930|共16页
作者
刘永楠; 李建中; 高宏;
展开▼
作者单位

哈尔滨工业大学计算机科学与技术学院哈尔滨 150001;

哈尔滨工业大学计算机科学与技术学院哈尔滨 150001;

哈尔滨工业大学计算机科学与技术学院哈尔滨 150001;

展开▼
原文格式 PDF
正文语种 chi
中图分类程序设计、软件工程;
关键词
数据质量; 数据完整性; 不完整数据; 核心数据选择; 近似算法;

相似文献

中文文献
外文文献
专利

1. 基于改进K近邻算法的海量不完整数据近似查询系统 [J] . 徐宝磊 . 现代电子技术 . 2021,第015期
2. 海量不完整数据上基于维度组合的Skyline查询 [J] . 王妍 ,银彪 ,刘赓浩 . 计算机科学与探索 . 2016,第004期
3. 基于压缩的海量不完整数据近似查询方法 [J] . 王妍 ,刘赓浩 ,王俊陆 . 计算机研究与发展 . 2016,第003期
4. 海量数据存储机制的研究——以海量金属数据为例 [J] . 马蕾 ,龚戈淬 ,刘建平 . 世界有色金属 . 2015,第009期
5. 基于大数据环境下的本科教学基本状态核心数据的实践研究——以广西医科大学为例 [J] . 谢帆 ,俞师 . 电脑知识与技术 . 2021,第024期
6. 基于压缩的海量不完整数据近似查询方法 [C] . WangYan ,王妍 ,Liu Genghao . 第32届中国数据库学术会议 . 2015
7. 基于核心数据层的工贸企业安全生产标准化管理模式研究 [A] . 陈玄超 . 2017

海量不完整数据的核心数据选择问题的研究

摘要

著录项

相似文献

相关主题

期刊订阅