首页> 中国专利> 基于Spark平台的分布式大数据函数依赖发现方法

基于Spark平台的分布式大数据函数依赖发现方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明提供一种基于Spark平台的分布式大数据函数依赖发现方法，包括数据分区，包括根据Spark集群各节点分配的CPU内核数对数据进行分区；生成属性集合的所有非空子集，包括通过数据库中的所有属性集合，生成含有所有非空子集的集合，为求解所有属性集合的等价类个数作准备；累加各节点属性集合的等价类数量，通过等价类计算得到全局数据库的(属性集合，等价类数)集合；迭代各属性集合生成函数依赖集合，包括由各属性集合的子集构建候选函数依赖关系，判断函数依赖关系是否成立。该方法解决了分布式环境下函数依赖发现算法的负载不平衡和低效问题，大幅度提高了函数依赖发现的执行效率。

著录项

公开/公告号CN109918410A

专利类型发明专利
公开/公告日2019-06-21

原文格式PDF
申请/专利权人中国人民解放军国防科技大学;
展开▼

申请/专利号CN201811285204.9
发明设计人张海粟;王龙;左青云;李韬伟;张胜;吴照林;刘鹏飞;朱明东;戴剑伟;徐飞;刘培磊;文峰;刘一博;张岩;
展开▼

申请日2018-10-31
分类号G06F16/2458(20190101);
代理机构42222 武汉科皓知识产权代理事务所(特殊普通合伙);
代理人严彦
地址 430014 湖北省武汉市江岸区解放公园路45号
入库时间 2024-02-19 11:32:30

法律信息

法律状态公告日

法律状态信息

法律状态
2019-07-16

实质审查的生效 IPC(主分类):G06F16/2458 申请日:20181031

实质审查的生效
2019-06-21

公开

公开

相似文献

专利
中文文献
外文文献

1. 基于Spark平台的分布式大数据函数依赖发现方法 [P] . 中国专利： CN109918410B . 2020-12-04
2. 基于Spark平台的分布式大数据函数依赖发现方法 [P] . 中国专利： CN109918410A . 2019-06-21
3. METHOD FOR SCHEDULING TASK IN BIG DATA ANALYSIS PLATFORM BASED ON DISTRIBUTED FILE SYSTEM PROGRAM AND COMPUTER READABLE STORAGE MEDIUM THEREFOR [P] . 韩国专利： KR20190109638A . 2019-09-26

机译：基于分布式文件系统程序和计算机可读存储介质的大数据分析平台任务调度方法
4. METHOD FOR SCHEDULING TASK IN BIG DATA ANALYSIS PLATFORM BASED ON DISTRIBUTED FILE SYSTEM PROGRAM AND COMPUTER READABLE STORAGE MEDIUM THEREFOR [P] . 韩国专利： KR102045997B1 . 2019-11-18

机译：基于分布式文件系统程序和计算机可读存储介质的大数据分析平台任务调度方法
5. METHOD FOR ESTABLISHING INDEX ON HDFS-BASED SPARK-SQL BIG-DATA PROCESSING SYSTEM [P] . 世界知识产权组织专利： WO2017096939A1 . 2017-06-15

机译：在基于HDFS的SPARK-SQL大数据处理系统上建立索引的方法