首页> 中国专利> 一种基于Spark的大规模分布式DataFrame的查询方法

一种基于Spark的大规模分布式DataFrame的查询方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种基于Spark的大规模分布式DataFrame的查询方法，包括以下步骤：采用了基于分布式计算执行引擎Spark的系统框架，以DataFrame作为编程模型，Python作为编程语言；在该分布式系统中，通过封装Spark原生DataFrame的已有查询接口，消除了与主流单机DataFrame计算库Pandas的API的不兼容性；构建轻量级全局索引，针对不同情况提供多种分布式DataFrame查询的功能；构建局部索引和辅助索引，提高了查询的性能。本发明解决了现有单机平台DataFrame可扩展性不好，无法处理大规模数据，以及现有的大数据处理平台分布式DataFrame查询接口不丰富，易用性差，性能低的问题。

著录项

公开/公告号CN110046176A

专利类型发明专利
公开/公告日2019-07-23

原文格式PDF
申请/专利权人南京大学;
展开▼

申请/专利号CN201910347850.1
发明设计人顾荣;黄宜华;施军;
展开▼

申请日2019-04-28
分类号
代理机构苏州威世朋知识产权代理事务所(普通合伙);
代理人杨林洁
地址 210093 江苏省南京市鼓楼区汉口路22号
入库时间 2024-02-19 11:59:52

法律信息

法律状态公告日

法律状态信息

法律状态
2019-08-16

实质审查的生效 IPC(主分类):G06F16/2455 申请日:20190428

实质审查的生效
2019-07-23

公开

公开

相似文献

专利
中文文献
外文文献

1. 一种基于Spark的大规模分布式DataFrame的查询方法 [P] . 中国专利： CN110046176A . 2019-07-23
2. 一种基于spark的大规模知识图谱语义查询方法 [P] . 中国专利： CN107247738A . 2017-10-13
3. RPA-BASED CUSTOMER REQUIREMENT OBTAINING AND QUERYING METHOD UNDER LARGE-SCALE CUSTOMIZATION [P] . WO2021238045A1 . 2021-12-02

机译：基于RPA的客户要求在大规模定制下获得和查询方法
4. MongoDB METHOD FOR WHOLE INQUIRY USING THREADING AT DISTRIBUTED SYSTEM BASED MONGO DATABASE [P] . 韩国专利： KR20180060690A . 2018-06-07

机译： MongoDB在基于分布式系统的MONGO数据库中进行读取的全查询方法
5. A system and method for large-scale distributed personalized media on demand [P] . 英国专利： GB2370896A . 2002-07-10

机译：一种按需大规模分布式个性化媒体的系统和方法