首页> 中国专利> 一种基于Spark框架进行全文检索的实现方法

一种基于Spark框架进行全文检索的实现方法

页面导航

摘要
著录项
相似文献

摘要

本发明公开了一种基于Spark框架进行全文检索的实现方法，属于大数据处理领域。该方法首先接收待执行SQL语句，生成语法树并转换成相应的逻辑计划；然后，从Hive中获取检索所有表的元数据，寻找支持全文检索的字段，并通过字段哈希索引对数据块进行初步裁剪；继而，根据查询条件从文件元数据中获取数据块所具体存放的磁盘位置；最后，将逻辑执行计划转换为可分布式执行的任务集合，通过各个数据块位置来确定任务具体执行的目标节点和任务所具体执行的目标进程；对任务进行分发执行，并汇总执行结果，迭代获取最终结果。该方法具有较高的效率，可以快速的完成海量数据的全文检索，在大数据处理领域具有很强的实用性和应用范围，具有很广泛的应用前景。

著录项

公开/公告号CN107943952B

专利类型发明专利
公开/公告日2020-10-13

原文格式PDF
申请/专利权人北京赛思信安技术股份有限公司;国家计算机网络与信息安全管理中心;
展开▼

申请/专利号CN201711194929.2
发明设计人强倩;孙昊良;张慧琳;周渊;张晨;李斌斌;刘庆良;
展开▼

申请日2017-11-24
分类号G06F16/2452(20190101);G06F16/22(20190101);G06F16/2453(20190101);G06F16/2455(20190101);
代理机构11121 北京永创新实专利事务所;
代理人冀学军
地址 100125 北京市朝阳区霞光里8号承冀诚大厦二层
入库时间 2022-08-23 11:16:43

相似文献

专利
中文文献
外文文献

1. 一种基于Spark框架进行全文检索的实现方法 [P] . 中国专利： CN107943952B . 2020.10.13
2. 一种基于Spark框架的生成对抗网络分布式实现方法 [P] . 中国专利： CN108268638B . 2020.07.17
3. COMPUTER-IMPLEMENTED FRAMEWORKS AND METHODOLOGIES CONFIGURED TO ENABLE DELIVERY OF CONTENT AND/OR USER INTERFACE FUNCTIONALITY BASED ON MONITORING OF ACTIVITY IN A USER INTERFACE ENVIRONMENT AND/OR CONTROL ACCESS TO SERVICES DELIVERED IN AN ONLINE ENVIRONMENT RESPONSIVE TO OPERATION OF A RISK ASSESSMENT PROTOCOL [P] . 美国专利： US2018341378A1 . 2018-11-29

机译：计算机实现的框架和方法，用于基于对用户界面环境中的活动的监视和/或对在在线环境中针对需要进行的在线服务进行的服务的访问控制，来实现内容和/或用户界面功能的交付
4. A computer-implemented method for encoding numeric data and a method for encoding data structures for transmission in a telecommunications system, based on said method of encoding numeric data. [P] . 欧洲知识产权局专利： EP2015456A3 . 2009-04-29

机译：基于所述数字数据编码方法，一种用于对数字数据进行编码的计算机实现的方法和一种用于在电信系统中进行传输的数据结构的编码方法。
5. A computer-implemented method for encoding numeric data and a method for encoding data structures for transmission in a telecommunications system, based on said method of encoding numeric data. [P] . 欧洲知识产权局专利： EP2015456A2 . 2009-01-14

机译：基于所述数字数据编码方法，一种用于对数字数据进行编码的计算机实现的方法和一种用于在电信系统中进行传输的数据结构的编码方法。